中文文本蕴涵识别技术研究

姚东任¹

扫码查看

作者信息

1. 西北师范大学
折叠

摘要

文本蕴涵识别在自然语言处理的各种应用中具有重要作用，是当前的研究热点问题之一。本文针对中文文本蕴涵关系自动分类问题，提出了以下三种方法： 1.基于特征融合的中文文本蕴涵识别。该方法通过提取统计特征、词汇语义特征构造特征空间，利用朴素贝叶斯和支持向量机的统计模型算法得到蕴涵关系分类器，并结合修正模块的处理信息得到文本蕴涵关系的判别结果。在特征选择过程中，将一些有利于蕴涵关系判别的非结构化特征以及利用语义资源信息得到的词汇语义特征作为前期蕴涵关系判别的特征进行使用。 2.融合句法结构树裁剪的中文文本蕴涵识别。该方法将句法结构特征融入系统蕴涵关系的识别，以弥补传统词汇统计特征对于句法结构信息捕获的不足。通过聚合句法分析树的节点，将树中无用信息节点删除，生成两棵最小信息子树并进行相似度计算。相比于原句法树，裁剪得到的最小信息树在节点数量上大大减少，但又保留了对蕴涵关系识别有用的语义信息。 3.融合词向量的中文文本蕴涵识别。由于词向量本身的类比特性可以有效地识别词汇间的蕴涵关系，因此利用Word2vec训练的词向量，来判断词对之间是否存在词汇蕴涵关系。根据已知存在某种蕴涵关系的词对的词向量，来寻找、判别新的词对是否存在相同关系，并将文本对之间的词汇蕴涵关系作为蕴涵关系分类的重要特征。此外，本文在研究过程中，参加了日本NTCIR组织的文本蕴涵国际评测。评测过程中实现了特征融合以及融合句法结构树裁剪的中文文本蕴涵识别系统，并取得了F值为59.71%的成绩。

关键词

文本蕴涵/语义分析/特征融合/自然语言处理

引用本文复制引用

授予学位

硕士

学科专业

计算机系统结构

导师

张志昌

学位年度

2016

学位授予单位

西北师范大学

语种

中文

中图分类号

段落导航