摘要
大数据时代,日益增长的新闻和专业性文本,给非母语人士和认知障碍人士理解文本带来了更大的挑战。同时,随着自然语言理解研究的深入,自动文本简化也有助于提高机器翻译、信息提取等自然语言处理任务性能。这使得自动文本简化受到了更多学者的关注。当前该领域已经提出了一些方法和技术,但还远不完善。存在英文文本简化研究相对较多,其他语种研究相对较少;公共语料数据库缺乏,采用方法不够丰富,简化效果不够理想等问题。 本文针对中文语料缺乏、缺少有效简化方法等问题,在现有相关语言简化研究的基础上,基于构建的中文可读性公式从词汇和句法两个方面对中文文本的自动文本简化展开研究。主要工作如下: 1.提出一个新的中文可读性公式。文本可读性是判断文本是否需要简化和简化效果如何的关键问题。本文针对中文文本可读性识别问题,构建了一个中文文本可读性公式。首先,基于选取的中文语料集,进行数据预处理、提取中文特征、共线性诊断和分类;其次,分别对分类特征进行线性回归分析,选取最优匹配线性回归模型作为本文的可读性公式;然后,通过与现有代表性文本可读性公式进行实验对比。结果表明本文的可读性公式更为有效,可以用于文本可读性的评估。 2.基于中文句法特征和词法特征构建了中文自动文本简化方法。首先,基于中文句法特征,对待简化语句进行复句检测,并将长难句进行拆分,从而实现句法简化;其次,基于中文词法特征,对完成句法简化的文本进行缩写词扩展、可替换词识别和候选词选取;然后,对候选词依据词频排序,选取词频高且其可读性分数较高的候选词的文本中可替换词进行替代语句概率计算,选取最高概率的替代语句作为简化结果。对简化文本的评估表明本文方法对中文文本的简化是有效的,其可读性评分相较于原始文本提高了3.68,SARI得分达到36.02,可为中文自动文本简化的研究提供参考。 3.构建了一个面向中文的自动文本简化原型系统。原型系统以中文语料为基础,结合NLP技术对复杂文本进行识别并简化,最终获得匹配目标读者的阅读能力的语句。该系统能够对中文文本进行简化并进行自动评估。为本文提出的中文自动文本简化方法的可行性和有效性验证提供了实验环境,也为后期实用系统的开发提供了参考。