计算机技术与发展2023,Vol.33Issue(10) :143-149.DOI:10.3969/j.issn.1673-629X.2023.10.022

基于Scratch作品相似度的检测研究

Research on Similarity Detection of Project Based on Scratch

张锦 胡子达 陆玟冰 杨定康 李强 罗元盛
计算机技术与发展2023,Vol.33Issue(10) :143-149.DOI:10.3969/j.issn.1673-629X.2023.10.022

基于Scratch作品相似度的检测研究

Research on Similarity Detection of Project Based on Scratch

张锦 1胡子达 2陆玟冰 2杨定康 2李强 2罗元盛3
扫码查看

作者信息

  • 1. 湖南师范大学 信息科学与工程学院,湖南 长沙 410006;长沙理工大学 计算机与通信工程学院,湖南 长沙 410006
  • 2. 湖南师范大学 信息科学与工程学院,湖南 长沙 410006
  • 3. 长沙理工大学 计算机与通信工程学院,湖南 长沙 410006
  • 折叠

摘要

Scratch作为图形化编程中的热门课程吸引了广大中小学生,而对于学生所做的作品与标准作品之间差异性的评定通常是靠教师通过人工对比检查,对于教师不仅工作量大且耗费巨大精力,因此对于Scratch作品相似性的识别就可以辅助教师快速检测学生作品,从而提高教学效率.针对该问题,提出Siamese-BERT模型对两个Scratch作品之间的相似度进行检测.首先,对Scratch源文件进行解析提取原始积木块序列,根据积木块逻辑特征提出一种积木块重构算法,将原始积木块序列排序成Token序列,将Token序列作为CBOW(Continuous Bag of Words)模型的输入文本进行预训练,从而得到Scratch的词向量模型;再使用Siamese神经网络框架结合BERT(Bidirectional Encoder Representation from Transformers)模型组合训练,最终输入到余弦相似度函数进行相似度计算.数据集来自于长沙市Scratch培训机构的培训作品和学生的练习作品,在该数据集上,Siamese-BERT模型准确度能达到 0.82,对比其它的文本相似度模型,Siamese-BERT模型在Scratch作品相似度检测上更加准确.

关键词

Scratch图形化编程/Siamese-BERT模型/连续词袋模型/Siamese神经网络/BERT模型/余弦相似度

Key words

Scratch graphical programming/Siamese-BERT/CBOW/Siamese network/BERT/cosine similarity

引用本文复制引用

基金项目

国防科技重点实验室基金(2021-KJWPDL-17)

国防科工局国防基础科研计划(WDZC20205500119)

湖南省自然科学基金(2021JJ30456)

出版年

2023
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量2
段落导航相关论文