摘要
近年,计算机技术的迅猛发展为各行各业的发展提供了强大的技术支持,使得一些需要强大计算能力的理论得以实践、应用,对金融领域的发展产生了广泛的影响。其中,机器学习是大数据发展应用的前沿之一,在金融科技领域对于非线性、有噪声的数据能有相较时间序列模型或线性模型更精准的预测结果,本文使用的股票数据正是具有波动大、非线性和不平稳等特点,因此机器学习方法为金融领域的焦点问题之一提供了新的解决路径。同时,自动化机器学习(AutoMachineLearning)的提出,使得机器学习模型在精准度上有了很好的提升,为本文的主要预测方法。 本文选取具有代表性的上证50综合指数成分股(共50只),剔除数据量少于1000的成分股剩余47只股,结合技术面特征及其时间序列特征,筛选具有重要贡献的15个特征,结合超参数优化中较为先进的贝叶斯算法框架和启发式优化算法之一萤火虫优化及其改进算法实现自动化调参,利用XGBoost模型,对比不同优化算法优化后模型的精准度,结果表明在贝叶斯优化算法、萤火虫优化算法和改进的萤火虫优化算法优化后,基于改进的萤火虫算法优化XGBoost模型超参数后的精准度显著更高,相较基准模型误差平均减少11.08%。另外,为验证机器学习的精准性提升对于投资组合最终表现的影响,本文选择常用来衡量风险资产组合的夏普比率(SharpeRatio)和索提诺比率(SortinoRatio)对优化前后投资组合的表现进行衡量,结果表明在不同期望收益下各项指标均有提升。均值-方差模型(Mean-Variancemodel,简称MV)产生的投资组合也相比等额资产配置投资的组合表现有很大幅度提升,验证了该模型的有效性。最后将结论中相较精准的基于改进的萤火虫优化的XGBoost模型结合均值-方差混合模型(以下称IFA-XGBoost-MV)应用于中国实际市场(具有不允许卖空约束),对于2022年数据进行预测并进行回测,分析2022年中国实际投资情况并不乐观,盲目投资大概率会亏损,辅助量化投资方法也需承担较大风险才能获得一定超额收益,相较低风险投资人群之下更适合高风险投资人群。