面向政治性错误检测的中文文本校对方法研究

张泽伟¹

扫码查看

作者信息

1. 北京信息科技大学
折叠

摘要

中文文本自动校对是计算机利用自然语言处理技术，对文本中的错误自动查找、标识并进行改正的过程。本文通过对目前国内外研究现状以及自然语言处理相关技术与课题的详细调查与分析，根据政治新闻领域语言特征，对现有的自动校对技术做了一系列改进与创新，并加入自己的研究成果，构建了一个面向政治性错误的中文文本查错系统，具体的研究工作包括以下几个方面: 1.政治性错误类型的总结。统计分析了政治新闻中错误实例，深入研读政治领域相关文献，总结了政治新闻领域中常见的错误类型:一般性错误和政治性差错。一般性错误属于字词一级，主要为多字、缺字和别字错误;政治性差错属于语义一级，包括领导人顺序错误、领导人姓名职务错误、涉港澳台用语错误。 2.文本预处理技术和文本校对技术的准备。深入分析了政治新闻知识库的特点和共性，探索了知识库、分词、词性标注、字符串比对、句法分析及文本查错等领域的研究方法和方式，优化了现有分词系统，并确定了基于统计与规则相结合的查错算法。 3.面向政治新闻领域的专业知识库和查错规则库的构建。通过定量的统计分析《人民日报》标注语料和最新的时政文本，设计了各类知识库的存储格式，构建了领导顺序库、姓名职务库、敏感词库等共计13个知识库;利用统计方法总结了部分政治差错规律，同时结合相关政治用语规范，构建了政治性错误检测规则库，共计72条规则，并设计了实现算法。 4.面向政治性错误检测的文本校对模型的构建。设计了N-gram模型和字词的接续关系模型相结合的一般性错误侦测方法;分析了N-gram模型平滑技术对查错模型的影响;利用最小编辑距离解决了敏感专词的侦测。充分利用文本特征和查错规则库，设计并实现了政治性差错的一般形式化模型。利用stanford parser句法分析器解决了远距离搭配错误，提高了错误召回率，同时降低了误报率。 5.面向政治性错误的中文文本校对系统的设计和实现。设计了详细的文本错误侦测系统的框架结构、实现内容。利用已构建的专业知识库和侦测模型，从文本基本操作、文本预处理和文本错误侦测三个模块阐述了文本校对系统的实现方法和过程。

关键词

政治新闻/查错技术/中文文本校对系统/形式化模型

引用本文复制引用

授予学位

硕士

学科专业

计算机应用技术

导师

张仰森

学位年度

2013

学位授予单位

北京信息科技大学

语种

中文

中图分类号

段落导航