基于预训练语言模型的中文专利自动分类研究

扫码查看

原文链接

国家科技期刊平台
NETL
NSTL
万方数据
维普

中文摘要：目的:支撑大规模中文专利精准自动分类工作,利用改进中文专利文本表示的预训练语言模型实现专利的自动分类.方法:基于中文预训练语言模型RoBERTa,在大规模中文发明专利语料上分别使用单字遮盖策略和全词遮盖策略遮盖语言模型任务进行迁移学习,得到改进中文专利文本表示的 RoBERTa 模型(ZL-RoBERTa)和 RoBERTa-wwm 模型(ZL-RoBERTa-wwm);将模型应用到专利文本分类任务中进行实验研究,并与典型深度学习模型(Word2Vec+BiGRU+ATT+TextCNN)和当前先进的预训练语言模型 BERT、RoBERTa 进行对比分析.结果:基于ZL-RoBERTa和ZL-RoBERTa-wwm的中文专利自动分类模型在专利文本分类任务上的分类精准率/召回率/F1 值更为突出.结论:改进文本表示的中文专利预训练语言模型用于专利文本分类具有更优效果,这为后续专利情报工作中应用预训练模型提供了模型基础.

外文标题：Research on automatic classification of Chinese patents based on pre-trained language models

作者：

马俊、吕璐成、赵亚娟、李聪颖

展开 >

作者单位：

军事科学院军事科学信息研究中心,北京 100142

中国科学院文献情报中心,北京 100190

关键词：

中文专利文本表示预训练语言模型文本分类

出版年：

2022

DOI：

10.3969/j.issn.1671-3982.2022.11.003

中华医学图书情报杂志

解放军医学图书馆

中华医学图书情报杂志

影响因子：1.247

ISSN：1671-3982

年,卷(期)：2022.31(11)

被引量1
参考文献量4