基于双判别器对抗模型的半监督跨语言词向量表示方法

Semi-Supervised Method for Cross-Lingual Word Embedding Based on an Adversarial Model with Double Discriminators

张玉红 ¹植文武 ²李培培胡学钢

扫码查看

作者信息

1. 大数据知识工程教育部重点实验室(合肥工业大学) 合肥 230009
2. 合肥工业大学计算机与信息学院合肥 230601
折叠

摘要

跨语言词向量表示旨在利用语言资源丰富的词向量提高语言资源缺乏的词向量表示.已有方法学习2个词向量空间的映射关系进行单词对齐,其中生成对抗网络方法能在不使用对齐字典的条件下获得良好性能.然而,在远语言对上,由于缺乏种子字典的引导,映射关系的学习仅依赖向量空间的全局距离,导致求解的词对存在多种可能,难以准确对齐.为此,提出了基于双判别器对抗的半监督跨语言词向量表示方法.在已有对抗模型基础上,增加一个双向映射共享的、细粒度判别器,形成具有双判别器的对抗模型.此外,引入负样本字典补充预对齐字典,利用细粒度判别器进行半监督对抗学习,消减生成多种词对的可能,提高对齐精度.在 2个跨语言数据集上的实验效果表明,提出的方法能有效提升跨语言词向量表示性能.

关键词

跨语言/词向量表示/对抗训练/双判别器/半监督

Key words

cross-lingual/word embedding/adversarial training/dual discriminators/semi-supervised

引用本文复制引用

基金项目

国家重点研发计划项目(2020AAA0106100)

国家自然科学基金(62076087)

国家自然科学基金(61976077)

安徽省自然科学基金(2208085MF170)

出版年

2023

计算机研究与发展

中国科学院计算技术研究所中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心

影响因子：2.649

ISSN：1000-1239

参考文献量2

段落导航