融合公众情绪指数的股价预测方法研究
作者单位:中国石油大学(北京)
学位级别:硕士
导师姓名:朱丹丹
授予年度:2023年
学科分类:12[管理学] 02[经济学] 0202[经济学-应用经济学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 020204[经济学-金融学(含∶保险学)] 081203[工学-计算机应用技术] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:股票市场中高收益与高风险并存,因此股票价格的预测一直是学术界和工业界的热点研究问题。传统股价预测方法存在对金融领域专业知识和经验要求高、噪声处理能力弱、预测效果差等缺点。近年来随着人工智能技术快速发展,深度学习算法成为股票预测研究新的突破口,但如何利用深度学习算法挖掘股票市场的可信信息、建立有效的预测模型,仍是未来一段时间的重点、难点。在此背景下,本文从数据和算法两方面考虑,提出一种融合公众情绪指数的股价预测方法。本文的研究工作主要包括:(1)提出了面向金融领域的中文文本情感分析方法。针对金融领域中文文本情感分析任务存在着缺乏有标注的开源语料库的问题,本文采用各项语言任务上表现突出的预训练语言模型作为教师模型,通过输出层知识蒸馏的方式在小规模有标注的中文金融文本数据集上训练小型学生模型,使得学生模型在保持轻量化的同时仍能基本维持教师模型较强的文本情感分析能力。(2)设计了基于公众情绪指数的多源异构股票数据融合方法。针对传统股价预测没有考虑公众情绪对股价的影响这一问题,本文通过对股吧情感文本的收集和量化,构建公众情绪指数这一特征,并通过格兰杰因果关系检验验证其有效性。另外,针对传统股票数据存在大量冗余特征,本文结合了随机森林算法与递归特征消除算法来对传统特征进行特征选择。(3)提出了基于双重注意力机制的股价预测模型。考虑到股价与各个特征之间存在特征关联性以及时序关联性的特点,本文在编码器中引入特征注意力机制以聚焦于对当前时刻更关键的股价特征,在解码器中引入时序注意力机制以放大重要时刻对股价预测结果的引导作用,以此提升模型的学习和预测能力。通过对不同股权集中水平下的三支代表性股票进行实验,证明了本文提出的融合公众情绪指数的股价预测方法的有效性和先进性。同时也证明了对于不同股权集中水平的股票,公众情绪对其股价波动的影响有差异。对于中低度股权集中的股票而言,公众情绪对股价影响较大,融合公众情绪指数的预测方法对其更为适用。