摘要
随着时代不断发展,金融市场不断壮大,各式各样的金融投资方式和投资产品也逐渐诞生并发展,越来越多的企业和个体投资者加入到金融投资中,并试图通过金融投资获得可观的收益。我国股票市场作为金融投资市场的一部分,规模不断扩大。在经济快速发展的今天,逐渐增多的上市公司和频繁的股票交易,促使股票市场每天都有大量的交易数据产生。 面对大量的股票数据,投资者仅凭个人的智慧进行股票投资往往会面临高风险低收益的局面。随着人工智能的迅速发展,研究人员开始利用人工智能算法建立金融交易策略来优化投资决策,其中代表性的方法之一是强化学习方法。然而,当前的强化学习方法通常对不同的股票进行单独建模,忽视了股票之间存在的关系信息。此外,现有的强化学习研究大都是将一到两个强化学习算法应用于金融市场并比较算法在单一交易任务上的表现,且这些研究主要集中在国外股票市场,对国内金融市场的研究甚少。基于此,本文提出基于深度强化学习的金融投资研究,并将主要研究内容归纳为以下两个方面: 一方面,本文考虑股票所在行业板块关系和所属基金关系,同时注意到多只股票可以属于同一个行业或同一个基金,因此不同股票之间的关系是成组的关系,而不是成对的关系。为此,本文使用超图结构对股票之间的关系进行建模,并设计了一个双通道超图注意力网络捕捉这两种关系,在每个股票超图中聚合信息时,引入注意力机制来区分不同股票邻居节点的重要性。本文从两个通道中分别得到同一股票的两个独立表示,并引入对比学习,最大化同行业和同基金股票间的互信息,提高它们自身的表示学习能力。进一步地,本文将不同股票融合后的表示作为强化学习中策略函数的环境状态,利用策略梯度算法对模型进行训练。本文使用累积收益、日夏普比率、日波动率作为评价指标,实验结果表明,本文提出的基于对比超图强化学习的投资组合模型在获益和抗风险能力上均具有优势。 另一方面,在国内金融市场中,本文系统性地验证了基于值函数和基于策略梯度的强化学习算法在单只股票交易、多只股票交易和投资组合三个投资任务上的有效性。用股票收盘价和金融指标构成单只股票交易任务和多只股票交易任务的市场状态。用收盘价的价格变化率协方差和金融指标构成投资组合任务的市场状态,并将市场状态输入给强化学习代理。在三种金融任务中,通过代理与金融市场的交互,得到每天的股票交易决策,利用交易决策实现资产的配置和分析。在执行完买卖决策后,得到奖励,根据奖励将策略不断调整到最优,达到收益的最大化和及时地规避风险。同时通过观察在累计收益率、夏普比率、最大回撤等评价指标上的回测结果对算法进行深入地比较和分析。