摘要
随着计算机科学的迅速发展,以研究自然语言处理为主的计算语言学应运而生。中文文本校对作为自然语言处理的重要应用之一,在宣传出版、档案管理、汉语教学等诸多领域具有非常重要的应用价值。因此,研究中文文本自动纠错校对方法并开发有效的中文文本自动校对系统具有重要的现实意义。 中文文本自动校对一直以来都是自然语言处理领域研究的难题。虽然近年来在相关领域取得了不错的研究成果,但仍存在精确率和召回率较低的问题。本文将中文纠错任务看作翻译任务,使用统计学语言模型和神经网络模型相结合的方法,实现了比较好的文本自动纠错校对效果。同时设计了可交互的B/S架构Web应用系统,实现了手写体中文文本图片的读入和自动文本校对功能。本文的主要工作包括: 第一,设计实现了一种基于N-gram统计语言模型的中文文本纠错方法。在深入分析了中文文本校对研究现状的基础上,针对中文结构复杂,错误类型多样的特点,设计实现了基于三元文法统计语言模型的中文文本纠错算法框架,同时利用语言文法规则、拼音处理和词频字典等手段,实现了对中文字词拼写的检错与纠错。 第二,提出一种基于LSTM神经网络模型的中文语法纠错方法。为了解决中文文本校对中出现的长距离依赖和数据稀疏等问题,本文将纠错任务看作翻译任务,设计了基于LSTM的Seq2Seq网络模型,同时在训练集预处理阶段引入结巴中文分词和字节对编码方法,有效解决了未登录词的问题。最后,采用对中文文本自动校对分阶段处理的思想,将统计语言模型和深度神经网络模型相结合,构建统一的文本纠错校对框架,提高了中文文本纠错校对的能力。 第三,设计并实现具有中文手写体文本纠错校对功能的Web应用系统。本文采用基于Python的DjangoWeb应用框架,设计了可交互和可视化的B/S架构应用系统,实现了对手写体中文文本图片的输入、识别与校对,并能给出合理的纠错建议。