摘要
本研究旨在提出一种基于意象图式理论的、可跨语言的动词语义标注方法,以更精确地对不同语言(此论文中以中韩为例)中的动词进行范畴划分,完善当前的语义标注系统,由此来提高计算机在机器翻译等在跨语言的自然语言处理任务中的动词匹配精度。本研究共分为五部分: 第一部分为研究背景与意义的论述。通过文献综述,发现当前语义标注研究,一方面对动词分类的研究较少,且缺乏系统的分类标准;另一方面大部分研究仅针对单一语种,无法对双语乃至多语文本进行统一标准下的处理。由此导致机器翻译系统在处理动词时,准确度较低。本研究试图提出一种新的动词语义标注方法,进而提高机器翻译的动词翻译质量。 第二部分为意象图式理论的详尽介绍。对意象图式定义和一般特征进行介绍的同时,重点论述了意象图式的种类及其“作为比较分类实体”的功能,以此作为本研究所提出的动词语义标注方法的主要理论依据。 第三部分为语料标注实验的展开。根据意象图式理论建立了用于本研究动词语义标注的标签集,并以中韩平行语料为实验对象,按照一定的标注原则对中韩语料进行了标注试验。 第四部分为实验标注结果的实例分析。通过列举标注实例,分析了所提出的基于意象图式理论的动词语义标注方法在标注实验中的表现。整体上,本研究所提出的标签集中的各意象图式标签在实验语料中均有涉及,且有大量动词涉及到两种或以上的意象图式标签,即复合图式。其次,面对中韩语料中出现的概念隐喻、转喻等现象,从认知层面入手,为大部分平行语料匹配到合适且一致的标签。最后,分析了因主客体不一致引起的意象图式标签不一致,以及多义词在本次标注实验中的处理情况。 第五部分为实验标注结果的统计分析。通过横向和纵向对比分析各意象图式标签在中韩语料中触发频次的统计数据,发现与是否去重无关,各意象图式标签的触发频率存在明显不同,且频率的高低与目标语言的种类无明显的相关性,同时中文和韩文使用者在将大部分意象图式转化为语言表述的模式上无明显差别。 最终,认为本研究所提出的基于意象图式理论的动词语义标注方法可以较好地应用于中文和韩文的平行语料,即可实现对不同语言的动词进行统一标准下的语义范畴划分。这说明此种标注方法在提高机器翻译的中韩动词匹配精度方面具有一定的研究价值和应用前景。