摘要
随着大数据时代的到来与人工智能的发展,量化交易,正在逐渐代替传统的人工交易买卖方式,现如今的量化投资策略,通过大数据,智能算法建立量化模型,通过参考各方面的市场数据,包括另类数据等,对投资者的财富进行精准分配,与传统交易相比,量化交易除了可以借助计算机的高速运算能力外,更是可以摆脱一些人类固有的本性,完整并且严格的执行自定的已有策略。目前,量化投资,分为两个方向一个是传统的技术指标,一个是新颖的,依靠与机器学习的量化策略,本文主要研究的是依靠与机器学习的量化策略,对于机器学习方向的量化选股策略。在构建机器学习选股策略时,模型所输入的因子尤为重要,在整个金融市场上,如果大家都使用相似的因子,就会造成因子拥挤,所以寻找新的有效的,并且与已有因子相关性低的因子就尤为重要。以网络舆情数据为代表的主观信息,在当前市场上应用的并不广泛,这类数据在一定程度上可以反映投资者情绪,因此与其他客观信息相比主观信息有一定的领先性。 本文分析对象为沪深300中属于上证交易所的97支股票,这些股票的共同点为,在股吧中的评论数量适中。首先本文将通过朴素贝叶斯模型对各个评论进行情感赋值,然后根据评论赋值得分与 Label 的相关性、评论数量与Label 的相关性以及分层因子对不同股票进行 k-means++聚类分析,将股票分为 2 类。使用量价因子,财务因子以及情绪因子对各个类别的股票进行模型训练(模型包括:LSTM,XGBoost,Stacking),获得训练分数。在构建投资组合中,本文创新的采取了模型训练集中预测值与 label 的相关性作为权重。除此之外,本文在模型训练以及组合构建的过程中将会采用滚动训练的方式,第n个月的模型是由前n?k个月训练得到的,??为滚动窗口大小。研究结果表明:(1)在一年的时间内,LSTM与XGBoost都有较高的超额收益率;(2)进一步使用Stacking模型结合LSTM与XGBoost两个学习器,本文策略的收益获得提升;(3)通过对比相关性作为权重与等权重构建投资组合,发现以相关性作为权重可以获取更高的收益。