首页|基于预训练语言模型的中文专利自动分类研究

基于预训练语言模型的中文专利自动分类研究

扫码查看
目的:支撑大规模中文专利精准自动分类工作,利用改进中文专利文本表示的预训练语言模型实现专利的自动分类.方法:基于中文预训练语言模型RoBERTa,在大规模中文发明专利语料上分别使用单字遮盖策略和全词遮盖策略遮盖语言模型任务进行迁移学习,得到改进中文专利文本表示的 RoBERTa 模型(ZL-RoBERTa)和 RoBERTa-wwm 模型(ZL-RoBERTa-wwm);将模型应用到专利文本分类任务中进行实验研究,并与典型深度学习模型(Word2Vec+BiGRU+ATT+TextCNN)和当前先进的预训练语言模型 BERT、RoBERTa 进行对比分析.结果:基于ZL-RoBERTa和ZL-RoBERTa-wwm的中文专利自动分类模型在专利文本分类任务上的分类精准率/召回率/F1 值更为突出.结论:改进文本表示的中文专利预训练语言模型用于专利文本分类具有更优效果,这为后续专利情报工作中应用预训练模型提供了模型基础.
Research on automatic classification of Chinese patents based on pre-trained language models

马俊、吕璐成、赵亚娟、李聪颖

展开 >

军事科学院军事科学信息研究中心,北京 100142

中国科学院文献情报中心,北京 100190

中文专利 文本表示 预训练语言模型 文本分类

2022

中华医学图书情报杂志
解放军医学图书馆

中华医学图书情报杂志

影响因子:1.247
ISSN:1671-3982
年,卷(期):2022.31(11)
  • 1
  • 4