摘要
汉语语篇中段落和句子之间存在从属、并列和因果关系,互联网文章中,跨句、跨段语篇含有大量的省略和指代,信息提取时易造成语义理解欠佳.以汽车故障诊断文本的信息提取为例,本文提出了一种结合编号层次和语义层次的语篇结构提取方法.首先,通过编号层次分析句子间的从属和并列关系,通过谓语分析句子间的因果关系.然后,根据句子的从属、并列和因果关系构建三种类型的结构树.最后,将不同种类结构树转换为标准型,从而实现对语篇结构的分析.该方法能有效识别跨句、跨段的句子中省略、指代等语法结构,提高语义理解的正确性和精准度.