首页|基于词汇聚类方法的现代汉语分期与分期体系构建

基于词汇聚类方法的现代汉语分期与分期体系构建

扫码查看
当前对现代汉语史的研究多借用政治-社会史的分期方式将现代汉语分为新文化运动到1949年、1950年到1966年、1967年到1976年和1977年至今四个时期,并在这一基础上开展了许多研究.语言尤其是书面语虽然与社会政治生活有密切联系,但语言系统有其自身的演化规律.从语言数据出发对语言进行分期是更加合适的选择.本文将语言的分期问题视作历时语料的分期问题,进而成为历时文本的聚类问题.本文工作基于历时报刊语料库遴选出的时间敏感程度较好的词汇.使用机器学习领域中广泛使用的K均值和期望最大算法进行聚类,以该部分词汇频率为特征对70年跨度(1945-2015年)的历时报刊语料进行聚类,并在不同的聚类数量下绘制了具有层次性的词汇使用分期树.构建了战后现代汉语的词汇层次分期模型,揭示了改革开放的开始作为二战后词汇使用变迁最重要分水岭的地位.

饶高琦、李宇明

展开 >

北京语言大学 北京市100083

现代汉语 分期体系 词汇聚类 历时演变

中国中文信息学会

第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会

2017-10-13

南京

第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会论文集

1-10

2017