摘要
现如今,互联网的兴起、市场经济的繁荣发展,带来的是企业之间更加激烈的竞争,商业情报已然成为了企业占据优势地位的重中之重。商业情报不仅可以为企业规避风险,还可以为企业提供更准确高效的决策。企业关系作为商业情报的重要部分,已经成为了企业研究竞争对手的重点之一。但是关于企业关系的现有研究不够深入,尤其是分析的数据源单一、研究的关系类型过少,导致得到的企业关系不够详细准确。 该课题建立在多源异构数据之上,研究基于知识图谱的企业关系推理。文章先是着手多源异构数据的采集及处理,将简历网站、论文网站、新闻站点、社交网站、公司官网这五大类数据作为数据源支撑后续算法研究,随后构建及归纳了企业知识,包括实体类型定义、实体识别以及关系抽取,其中抽取的企业关系包括合作、竞争、附属、供应、关联等等,并且在关系抽取部分提出了两种企业关系抽取算法:基于模板的企业关系抽取算法和基于Snowball的企业关系抽取算法,前者主要是针对企业关系做了定制化模板以及使用了自提升策略,后者主要是针对企业关系抽取做了特殊优化,考虑了企业关系的抽取特性,例如方向性、多样性等等,并且同样使用了bootstrapping思想,两种算法大大提升了企业关系抽取的准确率和召回率。 在归纳完企业知识后,本文构建了企业知识图谱,进行了企业知识图谱的实体对齐、企业知识图谱的冲突检测及消解,然后提出了一种新的企业关系推理算法RPRA算法,该算法在PRA的基础上,做了许多专门针对于企业关系推理的优化,例如对各类企业关系分别制定不同规则和评分函数、推理过程中注重企业关系方向性等等,并且对企业关系中的合作、竞争、关联等关系进行了深层次的特征发现。经过实验验证了算法的有效性,在精确率、准确率、召回率等多个指标上都要优于现有研究,并且该算法也已经落地于相关项目并且效果良好。