摘要
随着科学的快速发展,各国技术竞争的愈加激烈,对技术发展趋势的研究显得尤为重要。通常来说,专利文献包含了大量的技术、法律和经济信息,通过对专利进行分析,可以了解技术发展动态,提高研发起点,促进和保护自主创新。基于计量统计来分析专利的结构化数据(如申请年份、申请国家、申请人等)的占比以及趋势已十分成熟,而对专利文本内容中的非结构化数据(如标题、摘要、权利要求、说明书等)隐藏的技术信息挖掘还不够深入,也是亟待解决的一个难题,而专利文本中的技术细节和情报对先进技术研发和创新具有重要价值,在武器装备和国防建设领域更是如此,因此深度分析和挖掘专利文本对于更好地利用专利中的技术情报信息意义重大。 本文提出了一种面向技术发展趋势的专利文本挖掘方法。对待分析领域的专利数据集,该方法抽取专利摘要中包含技术方案和技术效果的SAO(Subject-Action-Object)结构,再将抽取后的SAO结构集进行DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)聚类来识别技术主题,根据专利申请趋势划分技术发展阶段来动态分析该技术在各个阶段的重点,从而把握技术的发展脉络,为预测技术发展趋势奠定数据基础。 本文主要工作和创新点如下: (1)基于语义角色标注和依存句法分析的SAO结构抽取。相比基于关键词的文本表示方法文本语义信息较弱且不够准确,SAO结构可提供由主语Subject(名词短语)、谓语Action(动词)和宾语Object(名词短语)组成的多类型技术信息,且能够描述包含不同语义信息的名词短语之间的关系。本研究选择某领域专利数据的摘要中的技术方案和技术效果,基于LTP(LanguageTechnologyPlatform)的依存句法分析和语义角色标注功能编写python代码提取SAO结构,筛选去噪后,最终形成结构化的专利SAO集,为之后聚类做准备。 (2)DBSCAN聚类算法的应用。本研究在实例中比较了LDA(LatentDirichletAllocation)模型、K-Means(k-meansclustering)和DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)聚类模型结果,发现K-Means聚类将所有文本聚类,易将“噪音”聚在一起,使聚出主题不具有代表性,产生干扰,且聚类数不易确定。LDA模型其聚类数需人为确定,通过调整参数来发现易解释的类簇费时费力,且多数情况下效果并不理想。本研究选择基于密度的DBSCAN的聚类方法对包含技术信息的SAO结构集聚类来识别技术主题,与LDA模型和K-Means聚类相比,DBSCAN无需提前指定簇类的数量,可发现任意形状的簇类,能识别出噪声点,每个类簇的可解释性强。当聚类数过多时,本研究采用相似主题归并方式调整聚类数。 (3)对导弹武器智能导航领域进行实证分析。具体流程是:对导弹武器智能导航领域进行调研,确定技术图谱后,利用德温特(DII)专利数据库进行专利检索,与技术人员共同确定导弹武器智能导航技术专题数据库,根据专利申请趋势将技术发展划分发展阶段,对各段的专利摘要中的技术方案和技术效果字段分别抽取SAO结构形成SAO结构集,利用DBSCAN聚类对SAO结构集进行技术主题识别,以分析各阶段技术研究的重点,从而把握技术发展脉络,结合科技文献研判,得出导弹武器智能导航技术的发展趋势。