教育领域人工智能基准测试:跨学科中文大型语言模型的综合评估

王野¹

扫码查看

作者信息

1. 南宁师范大学计算机与信息工程学院,广西南宁 530299
折叠

摘要

随着ChatGPT的发布,大型语言模型(large language model,LLM)已经在全球迅速崭露头角并在各行各业广泛应用.与此同时,以中文语言为基础的大型语言模型研究逐渐展开,其在教育领域的应用与效果也有待研究.为此,文章以10年高考题目数据集"GAOKAO-Bench"为测试数据,通过统计和分析 11 个不同来源(包括大型企业、学术机构和新兴公司)的开源中文大型语言模型在 9 个不同学科(语文、数学、英语、物理、化学、生物、历史、政治、地理)中的表现,来评估不同的中文大型语言模型在教育教学自动评估中的效果.随后,文章根据评估结果,从多学科、多维度出发,对模型在各个科目上的推理表现进行分析研究.最后,文章对中文大型语言模型在教育教学自动评估中可能遇到的挑战与问题进行探讨,并提出可供优化的思路与方法,以期推动中文大型语言模型在未来教育教学中的发展与传播.

关键词

人工智能/大型语言模型/深度学习/自然语言/教学自动评估/ChatGPT

引用本文复制引用

基金项目

2023年广西学位与研究生教育改革课题(JGY20232276)

出版年

2024

广西职业技术学院学报

ISSN：

参考文献量31

段落导航