论文提出了一种基于改进规则和强化学习的混合启发式算法来求解二维带装箱问题(2D Strip Packing Prob⁃lem,2DSPP).首先,对基于skyline算法的评分规则进行了改进.其次使用Deep Q-Network(DQN)来获得初始的矩形物品序列,它可以提高空间利用率,防止算法陷入局部最优.将改进的评分规则与DQN相结合,提出了基于简单随机算法(SRA)的启发式算法,称为基于强化学习的简单随机算法(RSRA).用五种算法对8个数据集进行了实验比较.结果表明,RSRA在8个数据集(C,N,CX,NT,2sp,NP,ZDF,BWMV)上的性能最好,Ave.Gap%分别比GRASP、SRA、IA、ISH算法分别提高45.86%、45.16%、30.89%和20.56%.