基于文本挖掘和机器学习算法的股票投资研究-南通市图书馆

文献详情 >基于文本挖掘和机器学习算法的股票投资研究收藏

基于文本挖掘和机器学习算法的股票投资研究

Research on stock investment based on text mining and machine learning algorithms

作者：陆航航

作者单位：兰州财经大学

学位级别：硕士

导师姓名：史亚荣

授予年度：2022年

学科分类：02[经济学] 0202[经济学-应用经济学] 020204[经济学-金融学（含∶保险学）] 07[理学] 070104[理学-应用数学] 0701[理学-数学]

主题：文本挖掘机器学习量化投资股票市场

摘要：作为资本市场的一个重要组成部分,股票市场在整个金融领域中有着十分重要的地位。一直以来,无论是在学术领域还是在资产管理行业,都有很多人希望能够找到一种能够正确地预测股票市场变动方向的方式。过去人们在进行股票价格走向的预测分析时,大部分是从股票市场自身的角度出发,利用证券价格的历史价格,交易量或者是和公司相关的收益指标来分析股票未来价格的变动,很少会从经济新闻、财经自媒体文章、股市评论等文本信息的角度来分析股票未来的价格变动,而随着互联网特别是移动互联网在百姓生活中的普及,越来越多的投资者开始接触到各种财经新闻,并且以此来辅助自己进行投资,因此研究这些财经文本信息对股市的影响,以及如何从这些文本信息中挖掘出有效的特征来对股票市场的走势进行判断有着重要的现实意义。本文的研究是利用财经新闻文本数据,从文本挖掘的角度来分析财经新闻对股票价格的影响及利用从文本数据中抽取的特征来对股票市场的未来走势进行预测。与市场上常见的技术性指标、基本面指标等结构化数据不同,文本信息属于一种非结构化的数据,要想让模型能够理解这些信息并从中挖掘出一些有用的特征,必须先对收集到的财经新闻进行转换处理,本文首先运用了Python第三方库jieba来收集到的对每条新闻文本进行切词,将每条文本信息转换成一个个单词列表,再利用自然语言处理工具doc2vec将每条文本信息转换成向量形式,之后通过随机森林算法对数量化的文本特征进行特征选择,从而得到最终的进入模型的特征数据。在回测时,本文将股票预测定义为一个二分类问题,即用现在的文本特征来预测第二天股票市场的涨跌情况,预测标的为沪深300指数。最终比较了三种不同类型的机器学习模型支持向量机(SVM)、XGBoost模型和神经网络在该分类任务上的表现情况,结果表明在将文本信息添加进模型之后,模型对标的的预测性能得到提高,这证明了文本信息的有效性,而在所有的机器学习模型当中XGBoost的表现最优。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于文本挖掘和机器学习算法的股票投资研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于文本挖掘和机器学习算法的股票投资研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：