摘要
中文语法纠错是自然语言处理(NLP)领域的子任务,通过对字词句以及语法等错误进行处理,旨在生成流畅清晰且表达规范的文本,进而提升文本质量。目前已广泛应用在教育、商务等领域以提供写作辅导。先前的中文文本纠错研究往往仅提供有限的纠正方案和结果,未能充分考虑到中文语言所固有的结构复杂性及内容多样性,并且高质量的中文语法纠错数据集相对稀缺,给中文语法纠错带来了挑战,这都制约了中文语法纠错研究的发展。然而,随着人工智能领域的进步,大语言模型在生成式任务中已展示出显著的优势,运用该技术识别并纠正文本中的语法错误,有助于生成流畅自然且丰富多样的正确文本,为中文语法纠错工作提供了新的视角和有效的解决方法。将这些先进技术应用在教育领域,可以为学生提供自动化的语法纠错服务,帮助学生提高写作能力并养成规范表达的习惯,也有助于智能教育体系的建设和发展。 首先,中文语法纠错工作面临着纠正方案多样性挑战,然而,先行研究多聚焦于将模型输出与单一的参考答案对齐,未能充分体现纠错结果应有的多样性,限制了模型处理纠错任务的潜能,暴露了依赖有限纠错参考答案对模型性能产生负面影响的问题。因此,本文的第一个研究工作创新性地提出利用扩充指令与大语言模型生成技术和人工检验编辑相结合的方法,实现对数据集参考答案扩充。该方法不仅提高了参考答案的丰富多样性和质量,也为模型训练提供了更加充分的准备,能够发掘模型在中文语法纠错领域的真实性能。在本文的数据集上与其他模型对比,本文提出的方法达到了最优的效果。 其次,考虑到在生成式语法纠错领域,小模型参数所囊括的知识量受限,这种局限在一定程度上抑制了模型在语法纠错任务中的性能。鉴于此,本文创新性地提出了微调中文语法纠错模型与上下文学习相结合的新范式纠错模型,通过微调大语言模型使其能够对中文语法纠错任务更有针对性。其次,创新性地提出以语义相似度和句法相似度两种检索方式构建上下文学习演示示例,使演示示例与待纠错文本更匹配,能够更好地引导模型纠正语法错误。最终实验表明,与其他方法对比,该方法在本文数据集上达到了SOTA效果。 最后,基于前两个研究工作,本文的第三个工作实现了中文语法纠错模型在作文智能批改应用上实践。借助微信小程序开发平台,设计开发了小花狮作文智能批改系统小程序,中文语法纠错作为该系统的重要功能模块,对学生作文中的语法错误进行识别,并提供相应的纠错结果参考。该系统可以指导学生规范表达,提高其写作质量,也是对智能教育的重要实践。