摘要
结构拓扑优化是一种现代化结构设计方法,能够辅助设计人员获得轻量化、高性能的结构,目前已在车辆工程、航空航天等领域得到了广泛的应用。传统的拓扑优化方法面临维数诅咒、网格依赖性、灵敏度获取困难等问题。近年来,随着人工智能技术的发展,数据驱动的拓扑优化方法成为新的研究热点,相关学者对此进行了大量的研究,但目前大部分数据驱动的拓扑优化方法都需要预先构建训练数据集,这使其适用场景和泛化能力都受到了限制。为了克服现有数据驱动机器学习拓扑优化方法依赖大数据,泛化能力差等缺点,本文使用深度强化学习(DeepReinforcementLearning,DRL)求解连续体结构拓扑优化问题,主要工作如下: (1)设计了用于强化学习算法交互训练的拓扑优化训练环境。对连续体结构拓扑优化问题进行强化学习建模,将其转换为设计域上单元材料布置的序列决策问题,合理设计了状态观察空间、动作空间、回报函数。 (2)提出了一种基于深度Q网络算法(DeepQ-Network,DQN)的新型2D/3D智能拓扑优化方法,使用卷积神经网络预测状态动作价值,使用改进的ε–greedy动作策略对单元进行填充,使用蒙特卡洛方法对真实动作价值进行计算。 (3)提出基于近端策略优化算法(ProximalPolicyOptimization,PPO)的2D/3D智能拓扑优化方法,其中包括用于输出全部动作选择概率的Actor网络和预测状态价值的Critic网络,使用基于分类分布的随机动作采样策略,使用时间差分法计算动作回报,并通过置信域约束的方式提高训练样本的利用率。 本文基于二维最小结构柔顺度问题对所提出方法的在线训练求解能力进行验证,其与BESO解的结构柔顺度误差均小于10%,结构相似度均高于80%,且经过训练的模型具有求解相近工况的泛化求解能力。除此之外,文章还对所提出方法在三维拓扑优化问题中的应用做了些许尝试。本文构建了结构拓扑优化问题的强化学习模型,通过对值强化学习(Value-based)代表性算法DQN和策略强化学习(Policy-based)代表性算法PPO的改进,验证了使用强化学习算法求解结构拓扑优化问题的有效性,丰富了数据驱动拓扑优化领域的研究,具有重要的学术和应用价值。