摘要
术语使用规范度人工检测方法存在领域知识障碍,其效率和准确率低.利用BERT(bidirectional encoder representation from transformers)模型捕捉文本语义和结构特征,将自然语言表述的文字组合映射到高维向量空间,可使用向量间的相似性衡量文字组合间的相似性.通过与原始术语向量在一定阈值下的相似性比对,实现了实时变化的文本流中术语使用规范度的自动检测.在包含 5万个术语的数据集上进行测试,准确率为0.912 4,F1 值为0.913 5.所提出的方法达到了工程化应用的程度,且与领域知识无关.