汉、英平行语料库的研究与构建
Research and Building Chinese-English Parallel Corpus
摘要
平行语料库研究是近年来语料库语言学横向发展的新趋势。人们清楚的认识到大规模的高质量汉英平行语料库在自然语言处理、比较语言学研究和第二语言教学等众多领域中的巨大价值。文章介绍了一个大规模汉英双语平行语料库的构建系统,利用互联网上存在的海量多语言文本资源,通过网页的内容分析和链接分析,实现了一个双语语料挖掘的自动获取系统,包括其总体规划、实施模型和流程细节。目的是通过学习国内外资料。最终建设一个基于互联网的平行语料库自动构建系统。
Abstract
Recently research on the parallel corpus is a new linguistic development trend. The people understand distinctly the enormous value in the many domains on the high quality chinese-english parallel corpus in the natural language handling, comparative lingu
关键词
爬虫/平行语料库/lucene/自动搜集平行语料库Key words
Reptile/Parallel corpus/Lucene/Automatically collection parallel corpus引用本文复制引用
出版年
2011