咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于文本挖掘和机器学习算法的股票投资研究 收藏
基于文本挖掘和机器学习算法的股票投资研究

基于文本挖掘和机器学习算法的股票投资研究

Research on stock investment based on text mining and machine learning algorithms

作     者:陆航航 

作者单位:兰州财经大学 

学位级别:硕士

导师姓名:史亚荣

授予年度:2022年

学科分类:02[经济学] 0202[经济学-应用经济学] 020204[经济学-金融学(含∶保险学)] 07[理学] 070104[理学-应用数学] 0701[理学-数学] 

主      题:文本挖掘 机器学习 量化投资 股票市场 

摘      要:作为资本市场的一个重要组成部分,股票市场在整个金融领域中有着十分重要的地位。一直以来,无论是在学术领域还是在资产管理行业,都有很多人希望能够找到一种能够正确地预测股票市场变动方向的方式。过去人们在进行股票价格走向的预测分析时,大部分是从股票市场自身的角度出发,利用证券价格的历史价格,交易量或者是和公司相关的收益指标来分析股票未来价格的变动,很少会从经济新闻、财经自媒体文章、股市评论等文本信息的角度来分析股票未来的价格变动,而随着互联网特别是移动互联网在百姓生活中的普及,越来越多的投资者开始接触到各种财经新闻,并且以此来辅助自己进行投资,因此研究这些财经文本信息对股市的影响,以及如何从这些文本信息中挖掘出有效的特征来对股票市场的走势进行判断有着重要的现实意义。本文的研究是利用财经新闻文本数据,从文本挖掘的角度来分析财经新闻对股票价格的影响及利用从文本数据中抽取的特征来对股票市场的未来走势进行预测。与市场上常见的技术性指标、基本面指标等结构化数据不同,文本信息属于一种非结构化的数据,要想让模型能够理解这些信息并从中挖掘出一些有用的特征,必须先对收集到的财经新闻进行转换处理,本文首先运用了Python第三方库jieba来收集到的对每条新闻文本进行切词,将每条文本信息转换成一个个单词列表,再利用自然语言处理工具doc2vec将每条文本信息转换成向量形式,之后通过随机森林算法对数量化的文本特征进行特征选择,从而得到最终的进入模型的特征数据。在回测时,本文将股票预测定义为一个二分类问题,即用现在的文本特征来预测第二天股票市场的涨跌情况,预测标的为沪深300指数。最终比较了三种不同类型的机器学习模型支持向量机(SVM)、XGBoost模型和神经网络在该分类任务上的表现情况,结果表明在将文本信息添加进模型之后,模型对标的的预测性能得到提高,这证明了文本信息的有效性,而在所有的机器学习模型当中XGBoost的表现最优。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分