首页|融合学科知识的数学习题知识点自动标注模型

融合学科知识的数学习题知识点自动标注模型

扫码查看
习题知识点标注是构建结构化题库和实现个性化学习的关键任务.对于数学习题,由于其存在公式化、表达精炼化等特殊性,现有的标注模型无法很好地捕获关键信息,进而难以深入理解文本中蕴含的深层语义.此外,结合领域知识的知识点标注模型普遍存在引入的知识不够关键、融合的方式过于直接的问题,缺乏对信息的有效筛选,从而导致在特征融合时产生大量噪声,干扰模型最终的标注结果.为此,该文提出了一种融合学科知识的数学习题知识点自动标注模型 MKAGated.该模型首先利用预训练模型对原始习题和两种细化的学科知识文本进行初步的语义编码表示,然后利用注意力机制实现习题与两种学科知识的信息交互以获取两种学科知识的深层语义表征,最后通过门控机制连续地、隐式地融合两种深层语义表征的平均池化表示以保留原始习题表示中有利于最终分类的语义特征.模型在自建的初中数学习题知识点标注数据集上测试的三种指标 micro-F1、macro-F1、weighted-F1 相较于基准模型分别提升了 1.99%、2.99%、2.12%,实验结果表明,该文所提方法能有效提升数学习题知识点的标注.
Automatic Annotation of Mathematical Exercise Topics Based on Subject Knowledge
Annotation of mathematical exercise topics is an essential task for building a structured exercise bank or realizing personalized learning.Due to the particularity of mathematical exercise texts,existing annotation models cannot capture deep key information well,and there are generally problems such as insufficient key knowledge intro-duced,overly direct fusion methods,and a lack of effective screening of information.This paper proposes a model MKAGated for automatic annotation of mathematical exercise topics.The model first uses the pre-trained model to re-present the original exercise and two kinds of refined subject knowledge texts.Then,the attention mechanism is a-dopted to capture the interaction between the exercise and the two subject knowledge texts as the deep representa-tions.Finally,a gated mechanism is applied to implicitly fuse the average pooling of the two deep representations to preserve the actual effective semantic features in the original exercise representation.Experimented on the self-built junior middle school mathematics exercise dataset,the proposed method outperformed the baseline by 1.99%,2.99%and 2.12%according to micro-F1,macro-F1 and weighted-F1,respectively.

knowledge points annotationsubject knowledgeattention mechanismgated mechanism

罗文兵、罗凯威、黄琪、王明文

展开 >

江西师范大学 管理科学与工程研究中心,江西 南昌 330022

江西师范大学 计算机信息工程学院,江西 南昌 330022

江西师范大学 数字产业学院,江西 上饶 334000

知识点标注 学科知识 注意力机制 门控机制

国家自然科学基金江西省教育厅科学技术研究项目江西省教育厅科学技术研究项目

62266023GJJ210325GJJ2200354

2024

中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
年,卷(期):2024.38(4)
  • 26