用于训练深层神经机器翻译模型的方法及装置

扫码查看

原文链接

NSTL
万方数据

中文摘要：本发明实施例提供一种用于训练深层神经机器翻译模型的方法及装置，该方法包括：根据训练样本得到第一联合输入表示，训练样本包括源语句和目标语句；将第一联合输入表示输入到M层顺次连接的训练网络，得到最终的输出表示；其中，每层训练网络中，包括顺次连接的自?交叉注意力网络和前馈网络；根据最终的输出表示及目标语句，利用反向传播算法更新模型训练参数。本发明实施例提供的用于训练深层神经机器翻译模型的方法及装置，通过利用M层顺次连接的、由自?交叉注意力网络和前馈网络构成的训练网络进行深层神经机器翻译模型的训练，具有平滑的梯度流，实现了深层神经机器翻译模型的训练，从而提升了神经机器翻译模型的翻译效果。

申请号：

CN201910528250.5

公开号：

CN110263352B

专利类型：

发明专利

申请日：

2019-06-18

公开日：

2023-04-07

IPC分类：

G06F40/58(2020.01)

申请人：

澳门大学;珠海澳大科技研究院

发明人：

黄辉、刘学博、周沁

主申请人地址：

中国澳门氹仔大学大马路澳门大学

国别省市代码：

中国(CN)