专利技术术语识别及其应用研究--以合成生物技术为例

胡雅敏¹

扫码查看

作者信息

1. 中国科学院大学
折叠

摘要

专利文本是承载技术信息的主要来源，专利文本分析是科技情报研究的重要手段，对专利的文本挖掘研究尤为重要。识别与解读专利中包含的技术信息、技术术语可分析领域专利发展，对技术战略布局和科技情报研究有重要意义。本研究基于上述背景，类比命名实体识别的方法与技术，利用深度学习模型自动识别专利文本中的技术术语，并进行技术预测方面的应用研究。对命名实体识别、技术术语识别的相关研究进行系统调研，对基于深度学习的技术术语识别总体框架进行设计，提出新的半监督标注方法、适用的深度学习算法，补充各种算法的对比，并取最优模型进行运用。以合成生物领域的专利文本展开技术术语识别的实证研究。最终结合实证结果，利用链路预测方法，通过节点相似性和路径相似性的特点预测出潜在的技术项及关联技术。本研究探索利用深度学习方法自动识别专利技术，期望能够减少专利标注人员的工作量、提高专利分析效率，为该研究领域相关技术情报研究提供思路与参考，进一步推动科技情报研究。本文的主要研究工作为: (1)在系统梳理NER方法的基础上，提出一种面向专利文本、基于深度学习算法的技术术语识别方法，该方法通过制定领域术语规则，改进半监督标注的方式标注训练数据。通过多种深度学习模型的对比实验设置，选择最优模型进行实证。对比以往研究的专利高频词/主题词(Keyword级别)、专利分类号(IPC)等分析对象，本文从更微观的视角——技术术语(Terms级别)的视角研究专利文本。同时，通过专利分析方法中常用的专利IPC技术聚类方法对比、验证本研究方法的有效性。 (2)选取合成生物领域的专利文本开展实证研究，基于合成生物领域技术术语的特点设计新的标注体系。采用半监督——机器自动标注、人工再复核的方式，对选取的标题、摘要及权利要求书文本进行标注。采用三组深度学习算法—-BiLSTM、BiLSTM-CRF、RoBERTa-BiLSTM-CRF进行识别。实验证明RoBERTa.BiLSTM.CRF模型的识别效果最好，F1可达到86.8％。同时，对比传统的专利分类号IPC分析技术主题的方法，深度学习模型识别出的技术术语更精细、易懂，证实了深度学习应用在专利文本技术术语识别中的可行性和有效性。对于结果分析，利用Gephi软件进行技术聚类分析和可视化分析。并利用Protégé工具实现技术本体的绘制，构建的合成生物技术本体共包含1035个技术项。。 (3)面向技术术语的技术预测应用研究。扩展技术术语识别的下游应用场景，基于识别出的技术术语，结合技术生命周期理论，增加时间切片、利用链路分析指标预测潜在的技术和技术关联。结果表明，基于技术术语识别的技术预测，可实现细粒度的技术预测、发现潜在的技术链接，辅助研究人员进行更细致的技术预测和情报分析。本研究的主要贡献为:(1)提出一种基于深度学习的专利技术术语识别并进行预测的研究框架，能够对特殊、复杂的专利文本进行细粒度的技术术语识别;(2)提出一种新的半监督标注的方法，首先利用研究领域的术语特点制定规则，通过句法分析和词性分析机器自动标注、人工再复核的方法，提高标注效率、节省人力:(3)构建合成生物领域的技术词典和技术本体，丰富了合成生物领域的数据集，便于用其进行更深入的下游研究;(4)在识别出的技术术语的基础上，实现了基于技术生命周期和链接预测的技术预测，作为本研究后续的应用扩展和应用场景，以此证明本研究方法的有效性和应用可扩展性。

关键词

专利技术术语识别/半监督标注/深度学习/链路预测

引用本文复制引用

授予学位

硕士

学科专业

情报学

导师

陈方

学位年度

2022

学位授予单位

中国科学院大学

语种

中文

中图分类号

段落导航