首页期刊导航|厦门大学学报(自然科学版)
期刊信息/Journal information
厦门大学学报(自然科学版)
厦门大学
厦门大学学报(自然科学版)

厦门大学

张鸿斌

双月刊

0438-0479

jxmu@xmu.edu.cn

0592-2180367

361005

福建省厦门市厦门大学囊萤楼218-221室

厦门大学学报(自然科学版)/Journal Journal of Xiamen University(Natural Science)CSCD北大核心CSTPCD
查看更多>>本刊是由厦门大学主办,国内外公开发行的综合性学术期刊)双月刊),是中国优秀科技期刊、中国自然科学核心期刊。主要刊载数学,物理学,计算机与信息工程,技术科学,化学,化工,海洋学,环境科学,生命科学等学科的最新研究成果。本刊坚持党的基本路线,提倡“双百”方针,以促进科学技术的发展,为传播科技成果,发现和培养科技人才提供了一个总结经验、相互交流的园地。
正式出版
收录年代

    篇章级神经机器翻译语篇结构研究

    姜云卓贡正仙李军辉
    993-1004页
    查看更多>>摘要:[目的]当前篇章级机器翻译系统通过使用上下文信息来生成更好的翻译,但大部分工作都是从模型的角度出发,利用上下文字词信息来构建有效的网络结构,从而忽略了源端文本内部的结构,这导致了对上下文的利用不足.[方法]在修辞结构理论的指导下,设计丰富的基本语篇单元(EDU)表示,从而刻画其文本覆盖范围、携带信息量和简单的主从修辞关系,并提出相应的算法将修辞结构树中复杂修辞关系映射到EDU中.[结果]本文方法可以在不增加序列长度的基础上最大程度地保留EDU的修辞关系信息,在两个语言对的4个数据集上的实验结果表明,改进的模型在多个优质的基线系统上实现了大于1 BLEU分数的显著性能提升,并且在本文根据EDU分布特征提出的定量评估中也表现出较为明显的改进结果.[结论]本文提出的方法可以方便应用于多个篇章级神经机器翻译模型中,具有高效灵活的特点和广泛的适用性.

    神经机器翻译语篇分析篇章翻译修辞结构理论

    语义角色标注增强的隐式篇章关系识别

    吴一珩李军辉朱慕华
    1005-1015页
    查看更多>>摘要:[目的]为了改善因将隐式篇章关系识别(implicit discourse relation recognition,IDRR)描述为文本分类任务,提出了一种新颖的IDRR方法.[方法]将IDRR视为文本生成任务并直接生成篇章单元对的连接词,随后生成的连接词被准确无歧义地映射到唯一篇章关系.具体地,首先设计了可以将无歧义性连接词转化为对应篇章关系的连接词-关系映射表;然后介绍了两种不同的连接词替换策略用于替换训练样例中的歧义性连接词;最后,将IDRR视作一个序列到序列的任务,其中目标端序列由基于语义角色标注增强的篇章单元对和两者之间的连接词组成.[结果]基于英语PDTB和中文CDTB的实验结果表明本文提出的方法达到了最先进的性能.[结论]本文方法创新性地将IDRR视为文本生成任务,并通过序列到序列模型显著提升了隐式篇章关系识别的效果,为隐含信息的精确捕捉提供了新的解决方案.

    隐式篇章关系识别序列到序列模型语句角色标注增强连接词生成

    基于编码转写增强词嵌入迁移的老-中神经机器翻译

    唐聪毛存礼高盛祥张思琦...
    1016-1023页
    查看更多>>摘要:[目的]迁移学习是提升低资源神经机器翻译性能的有效方法,然而现有迁移学习方法在泰语到老挝语迁移学习上表现不佳,主要问题在于泰语和老挝语的书写体系不同,难以建立准确的迁移词表映射.[方法]因此,本文提出基于编码转写增强词嵌入迁移的老-中神经机器翻译方法,利用泰老发音相似性构建统一罗马化转写规则,对泰语和老挝语进行编码转写,建立准确词表映射关系,进而实现泰语到老挝语的增强词嵌入迁移.[结果]实验结果表明,本文所提方法在老-中和老-英两个翻译方向上相比基线模型提升2.45和2.74个BLEU值.[结论]本文方法在低资源语言间迁移学习中表现良好.

    迁移学习泰语老挝语罗马化机器翻译

    融合BERT预训练语言知识的神经机器翻译方法

    谷雪鹏郭军军余正涛
    1024-1032页
    查看更多>>摘要:[目的]针对在神经机器翻译任务中仅使用微调的方法不能充分利用预训练语言知识的问题进行研究.[方法]提出一种双阶段交互融合预训练模型的神经机器翻译方法.首先提取BERT预训练模型的多层表征,利用多层表征构建掩码知识矩阵,将BERT包含的预训练知识作用于神经机器翻译模型编码端词嵌入层.其次,通过自适应融合模块提取BERT多层表征中的有益知识,并与神经机器翻译模型交互融合.[结果]实验结果表明,与Transformer基线模型相比,所提方法在多个神经机器翻译任务上BLEU评分获得了 1.41~4.20的提升,相较于其他融合预训练知识的神经机器翻译方法,所提方法也有较为明显的模型性能提升.[结论]本文提出的双阶段交互融合预训练模型的神经机器翻译方法缓解了灾难性遗忘问题,缩小了预训练模型与神经机器翻译模型因训练目标不同而导致的差异,可以有效利用预训练语言知识来提升神经机器翻译模型性能.

    机器翻译预训练语言模型注意力机制Transformer网络模型

    两阶段域适应神经机器翻译方法

    刘伍颖金凯
    1033-1041页
    查看更多>>摘要:[目的]为了提升神经机器翻译模型的迁移学习效果,以语言数据为中心开展域适应方法探索.[方法]根据KL散度和最大均差两种域适应量度的定量分析结果,提出一种针对拥有大规模平行句子和小规模域文本场景的两阶段减量学习框架.第1阶段域过滤,利用域文本过滤平行句子,得到域平行句子,再利用得到的域平行句子训练出域神经机器翻译模型.第2阶段质量过滤,利用训练出的域神经机器翻译模型将第1阶段过滤出的域平行句子翻译一遍,比较机器译文与人工译文的质量,删除低质量平行句子以获得高质量域平行句子.最后利用得到的高质量域平行句子训练出优化的域神经机器翻译模型.[结果]在适应法律域英汉神经机器翻译上的实验结果显示新提出的两阶段算法只需原来训练步的四分之一左右,就反而可以提高2个多的BLEU分数.[结论]实验结论证明减量学习框架能够在大大减少训练时空开销的前提下获得最优的性能,最终实现神经机器翻译模型的快速域迁移.

    域适应域适应量度减量学习神经机器翻译法律域

    基于语音语义引导的语音分割方法

    高盛祥杨尚龙余正涛董凌...
    1042-1050页
    查看更多>>摘要:[目的]语音分割旨在将音频流或者较长的音频分割为短的音频片段,是语音翻译任务中的一个必要步骤.恰当的分割使音频段具有完整的语义,从而使语音翻译模型更关注句子完整的上下文信息,解码得到更优的翻译结果.[方法]本文提出一种基于语音语义引导的语音分割方法,使用基于HuBERT的帧分类器对音频帧进行分类,得到每个音频帧是否为语音帧的概率,并使用ipDAC算法对音频进行递归切割,从而实现对音频的分割.[结果]本文方法在Must-C英语-越南语翻译数据集上的BLEU值上相较已有方法取得了 0.6个百分点的提升.[结论]通过对比不同的分割方法对模型性能的影响,证明所提方法能有效减少语音翻译模型在解码时的性能损失.

    语音翻译语音分割HuBERT预训练模型

    基于时频信息梯度估计的单通道语音增强方法

    高盛祥方妍文余正涛董凌...
    1051-1058页
    查看更多>>摘要:[目的]语音增强可用于提升现实噪声环境下语音翻译系统的性能.针对现有基于概率扩散模型的语音增强方法存在生成语音结构被破坏、难以对全局特征建模的问题进行研究.[方法]本文提出基于时频信息梯度估计的单通道语音增强方法.首先将语音复数谱送入编码器中提取深层表征,并提出将残差快速傅里叶卷积(residual fast fourier convolution,Res-FFC)用于修复生成语音并对语音全局特征进行建模,同时在编解码的过程中融入语音时域信息.[结果]在公开数据集Voice Bank-DEMAND上的实验结果表明,相比基于分数生成模型的复数时频域语音增强网络(SGMSE),本文所提方法在客观评价指标SI-SDR和WB-PESQ分别提高0.5和0.19.[结论]本文提出的语音增强方法通过融入Res-FFC和语音时域信息,提升了模型对语音全局特征的捕捉能力,可有效抑制噪声,提升语音质量.

    语音增强概率扩散模型单通道快速傅里叶卷积

    基于深度学习的梵藏文本识别

    才让叁智仁增多杰多拉索南尖措...
    1059-1066页
    查看更多>>摘要:[目的]梵藏文本识别是自动排序、词法分析和自动校对等研究的重要前期工作环节.当前基于规则的梵藏文本识别方法中存在无法有效识别短梵文词语等诸多问题.[方法]在自建的梵藏文本识别数据集上,采用基于双向长短时记忆网络和自注意力的梵藏文本识别方法、基于预训练语言模型CINO的梵藏文本识别方法和基于规则的梵藏文本识别方法之间进行实验对比,并分析它们的识别结果,进而选出最优的梵藏文本识别方法.[结果]基于双向长短时记忆网络和自注意力机制的梵藏文本识别模型的宏准确率、召回率和F1值分别达到了 98.09%、99.22%和98.65%,其效果优于多语言预训练模型CINO和其他3种基于规则的方法.[结论]基于skip-gram、CBOW和GloVe的藏文字符表示模型使用相同的小规模、无重样的训练数据集时,CBOW的字符表示效果优于其他两者;训练数据相同的情况下,基于双向长短时记忆网络和自注意力机制的梵藏文本识别模型优于多语言预训练模型CINO,同时,也优于基于规则的梵藏文本识别模型.

    藏文信息处理梵藏文本识别字符表示STTRM_BS模型

    基于全图的边冠图的谱

    李亚男马小玲邓世安陈丹丹...
    1067-1072页
    查看更多>>摘要:[目的]网络系统的重要结构和动力学性质往往可以从与其图所表示的相关联的图矩阵的特征值和特征向量中得到.图的各种谱可以提供图的直径、度分布、给定长度的路径、生成树的数目以及更多不变量的信息.[方法]设G1,G2为简单连通图,利用图G1的全图的定义,定义了关于图G1和G2的一种新的图运算——全图的边冠图,记为G1⊙G2.[结果]基于G1和G2的邻接谱、拉普拉斯谱和无符号拉普拉斯谱,给出了新构造的图G1⊙G2的邻接谱、拉普拉斯谱和无符号拉普拉斯谱,其中G1是正则图和G2是任意图.[结论]应用上述结果,构造了无穷多对邻接(拉普拉斯、无符号拉普拉斯)同谱图,并且计算了 G1⊙G2的基尔霍夫指标和生成树的个数.

    全图的边冠图邻接谱拉普拉斯谱无符号拉普拉斯谱基尔霍夫指标生成树

    一类双圈图的加权Kirchhoff指标

    李成敏边红于海征杨雪...
    1073-1081页
    查看更多>>摘要:[目的]探究当图G是一个具有n+2个顶点的顶点赋权双圈图,且其中两个圈只有一个公共顶点时,图G的加权Kirchhoff指标公式.[方法]通过比较系数法和枚举法,首先对双圈图G中任意两个顶点vi和vj的分布情况进行分类,然后讨论在S(G)-vi-vj中不被n-匹配M所饱和的e-顶点的分布情况.[结果]经过对顶点vi和vj不同的3种分布情形进行详细分类讨论,本文得出的双圈图的加权Kirchhoff指标公式在每种情形下都成立,且这一结果将Li,Li和Yan等关于单圈图的相应结果推广到了具有两个圈且仅有一个公共顶点的双圈图上.[结论]针对两个圈只有一个公共顶点的双圈图的加权Kirchhoff指标公式可通过计算获得,并可通过其对应的顶点-边赋权剖分图S(G)ω*及其相应子图的匹配权和来表示.

    加权Kirchhoff指标双圈图剖分图完美匹配