实际场景语料和FSN语料的平衡方法

熊军军 ¹中国科学院研究生院 ²李成荣³

扫码查看

作者信息

1. 中国科学院自动化研究所，北京，100080
2. 北京，100080
3. 中国科学院研究生院，北京，100080
折叠

摘要

本文研究了人机日常对话领域语料的生成方法, 这些语料将被用来训练连续语言识别器的语言模型。语料的来源主要有两部分：一部分是已有的通过整理实际应用场景下录音得到的语料，我们称之为实际场景语料；第二部分是用有限状态网络(Finite State Network, FSN)句法规则方法生成的语料，我们称之为 FSN 语料。本文重点研究了这两种语料的平衡方法，即以何种方法、何种比例混合这两种语料，得到最终训练语料，提出了以实际场景语料和FSN语料中共有的关键词的概率比较为基础，用一定倍数的部分实际场景语料扩展 FSN 语料，得到最终语言模型训练语料的方法。用该方法得到的语料训练的语言模型使连续语音识别器的识别性能有了较大提高。

关键词

关键词概率/语料扩展/语言模型/有限状态网络/人机对话

引用本文复制引用

主办单位

中国中文信息学会/中国声学学会/中国语言学会

会议名称

第九届全国人机语言通讯学术会议

会议时间

2007-10-21

会议地点

安徽黄山

会议母体文献

第九届全国人机语言通讯学术会议文集

出版时间

2007

段落导航