摘要
语义匹配作为自然语言处理任务中重要的一环,直接制约问答系统、信息检索等任务的效率.针对现有语义模型大多只以词为基本语义单元进行注意力交互,较少考虑中文中的词边界模糊和字符信息获取不足而带来的语言颗粒度对整体建模忽略的问题,提出一种增强的多粒度特征融合语义匹配模型EMGFM.首先结合BERT模型和word2vec以获得增强的字符向量表示,然后从字、词、句三种粒度进行注意力的交互,并对交互结果进行加权融合,以突出不同交互信息对整体建模的贡献.为减少交互过程中产生的信息损失,通过构造差异性来对交互信息进行信息增强.最后通过最大池化、平均池化两种方式获得文本的最终语义表示以进行匹配度的计算.该模型在CCKS问句匹配大赛中文数据集上达到了87%的正确率,相比于一些语义匹配的经典模型准确率均有提升,证明该方法确实能有效提升问句语义匹配的准确性.
基金项目
黑龙江省自然科学基金(LH2019F004)
东北石油大学青年科学基金(2018QNL-25)
东北石油大学优秀中青年科研创新团队项目(KYCXTD201903)