知识图谱的不完备性导致多跳推理在探索路径的过程中会缺失关键节点和关系,从而导致推理失败.针对此问题,文章提出了动作空间扩充及奖励优化模型AsaRo(Action Space Augmentation and Reward Optimization).该模型根据实体的邻域信息寻找其相似实体,并利用相似实体的邻域信息扩充原实体动作空间.在模型优化方面,采用基于带有优势函数的演员评论家A2C(Advantage Actor Critic)算法的强化学习优化路径奖励,并在原有路径奖励的基础上添加状态价值函数以评价策略的好坏,进一步提升了模型效果.在知识图谱数据集UMLS、Kin-ship、WN18RR、NELL-995、FB15K-237上的实验结果表明,该文模型效果优于大部分现有模型.
Multi-hop Knowledge Graph Reasoning with Action Space Augmentation and Reward Optimization