基于网络百科知识源的语义关系获取和自动合成研究

蔡海博¹

扫码查看

作者信息

1. 北京工业大学
折叠

摘要

知识获取是指利用人工智能的方法，从资源中获取所需要的信息或者格式化的结构，并将其自动转化为计算机可以理解的形式。随着计算机的普及以及互联网的快速发展，越来越多的知识呈现在文本当中，自动文本知识获取成为人工智能发展的瓶颈。如何快速自动的从文本中获取知识，是文本知识获取领域一个亟待解决的问题。通常人们理解的知识指的是掌握概念的数量多少以及概念之间的关系的复杂性，同样，对于计算机而言，概念和概念间的语义关系是知识的基本组成部分。本文选取中文网络百科作为知识源，主要研究了隐性概念的发现和语义关系自动合成的方法。针对隐性概念发现方面的研究，论文提出了一种基于文本语义的概念生成模型和方法。首先，抽取中文网络百科知识源中有标记的显性概念，并利用词法分析和统计方法获取显性概念的前部特征、后部特征和相应的候选隐性概念词构件。然后分别利用基于统计和上下文语境的混合加权方法和基于word2vec构建特征向量的方法对候选概念词构件进行相似度的计算，并结合待交换候选概念词构件和前部或后部特征的相关度，最后通过拼接概念词前部或后部特征和候选隐性概念词构件，发现隐性概念。最终的实验结果表明，混合加权算法能取得更好的效果。针对语义关系获取和自动合成的研究，论文提出了一种基于概念扩充的语义关系自动合成方法。首先，利用基于规则的方法从中文网络百科知识源中获取上下位关系、部分整体关系、并列关系和地理位置关系。然后利用概念在搜索引擎中出现的频数对有歧义的概念进行语义扩充，并计算待合成的关系涉及的概念之间的相关度。最后通过对这四种语义关系进行关系内和关系间的推理扩充语义关系知识库。

关键词

人工智能/文本知识/语义关系/概念获取/自动合成

引用本文复制引用

授予学位

硕士

学科专业

数学

导师

刘磊

学位年度

2016

学位授予单位

北京工业大学

语种

中文

中图分类号

段落导航