科技信息(学术版)2011,Issue(17) :I0104-I0105.

汉、英平行语料库的研究与构建

Research and Building Chinese-English Parallel Corpus

科技信息(学术版)2011,Issue(17) :I0104-I0105.

汉、英平行语料库的研究与构建

Research and Building Chinese-English Parallel Corpus

扫码查看

摘要

平行语料库研究是近年来语料库语言学横向发展的新趋势。人们清楚的认识到大规模的高质量汉英平行语料库在自然语言处理、比较语言学研究和第二语言教学等众多领域中的巨大价值。文章介绍了一个大规模汉英双语平行语料库的构建系统,利用互联网上存在的海量多语言文本资源,通过网页的内容分析和链接分析,实现了一个双语语料挖掘的自动获取系统,包括其总体规划、实施模型和流程细节。目的是通过学习国内外资料。最终建设一个基于互联网的平行语料库自动构建系统。

Abstract

Recently research on the parallel corpus is a new linguistic development trend. The people understand distinctly the enormous value in the many domains on the high quality chinese-english parallel corpus in the natural language handling, comparative lingu

关键词

爬虫/平行语料库/lucene/自动搜集平行语料库

Key words

Reptile/Parallel corpus/Lucene/Automatically collection parallel corpus

引用本文复制引用

出版年

2011
科技信息(学术版)
山东省技术开发服务中心

科技信息(学术版)

ISSN:1001-9960
被引量1
段落导航相关论文