首页期刊导航|中文信息学报
期刊信息/Journal information
中文信息学报
中文信息学报

孙茂松

双月刊

1003-0077

cips@iscas.ac.cn

010-62562916

100190

北京海淀区中关村南四街4号

中文信息学报/Journal Journal of Chinese Information ProcessingCHSSCDCSCD北大核心CSTPCD
查看更多>>本刊于1986年创刊,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。《中文信息学报》是《中文核心期刊要目总览》自动化、计算机技术类的核心刊物。国内外公开发行。它及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。所刊登的文章多数得到了国家或省、部级重大科技项目、攻关项目及自然科学和社会科学基金的资助。
正式出版
收录年代

    面向自然语言理解的语义表示方法综述

    张翔何世柱张元哲刘康...
    1-17页
    查看更多>>摘要:语义是自然语言理解的核心研究对象,让机器掌握语义有多种途径,因此产生了不同的语义表示方法。但是,这些不同的途径之间往往缺乏联系,分别散落于不同的研究领域和研究任务中,如知识库问答中的查询图和SparQL、表格问答中的SQL、句子语义分析中的框架语义和AMR图等。虽然形式相近,但相关研究却缺乏协同。随着研究深入,语义表示之间缺少对比、具体任务中语义表示难以选择且性能差异大等缺点也显露出来。为了缓解这个问题,该文综述了常见于各类任务中的语义表示,并以世界和语言的关系为主线将它们重新划分为"外延世界语义表示"和"语言内部语义表示"两大类。总结了前者的技术研究热点及新型语义表示的设计和对比方法,并简单探讨了近期围绕后者是否真正含有语义的辩论。最后,该文综述了结合外延和内部两类语义表示的研究,发现这类方法有较强潜力。

    语义表示语义解析自然语言理解

    TextSwindler:面向硬标签黑盒文本的对抗攻击算法

    熊熙刘钊荣张帅余艳...
    18-29页
    查看更多>>摘要:在自然语言处理领域,黑盒硬标签对抗攻击算法受到文本离散性、不可微性以及仅能获取模型决策结果的限制,难以同时兼顾攻击效果与攻击效率。该文提出一种基于单词替换的黑盒硬标签文本对抗攻击算法TextSwindler。首先全局随机初始化对抗样本。接着在迭代优化阶段,分别采用基于词嵌入空间搜索邻近样本,以及基于回溯控制的扰动优化,以减少生成的对抗样本的扰动。最后基于简单交换规则搜索最优单词,提高生成的对抗样本的语义相似度。在8个数据集和3种深度学习模型上的实验结果表明,TextSwindler方法在保证生成样本质量的同时,可以降低43。6%的查询次数。

    对抗样本黑盒硬标签

    2024年"中国中文信息学会博士学位论文激励计划"发布仪式

    中国中文信息学会
    29页

    基于强化学习的古今汉语句子对齐研究

    喻快邵艳秋李炜
    30-38,63页
    查看更多>>摘要:基于深度学习的有监督机器翻译取得了良好的效果,但训练需要大量高质量的对齐语料。对于中文古今翻译场景,高质量的平行语料相对匮乏,这使得语料对齐在该领域具有重要的研究价值和必要性。在传统双语平行语料的句子对齐研究中,传统方法根据双语文本中的长度、词汇、共现文字等特征信息建立综合评判标准来衡量两个句对的相似度。此类方法对句子语义匹配的能力有限,并且在多对多的对齐模式上表现不佳。该文利用具有强大语义能力的预训练语言模型,并基于动态规划算法的强化学习训练目标来整合段落全局信息,进行无监督训练。实验结果证明,使用该方法训练得到的模型性能优于此前获得最好表现的基线模型,特别是在多对多对齐模式下,性能提升显著。

    双语对齐预训练语言模型强化学习动态规划

    ChatGPT生成开放领域文本自动检测数据集构建

    徐康惠志磊董振江蔡霈涵...
    39-53页
    查看更多>>摘要:近年来,ChatGPT等大模型展现出卓越的语言理解、生成和知识推理能力,但是这些大模型也存在幻觉生成和内容抄袭等问题。为了自动检测ChatGPT生成的开放领域文本,需要高质量的数据集支撑。目前现有的ChatGPT生成开放领域文本检测数据集规模较小,语料风格单一。该文构建了一个多样化的ChatGPT检测数据集,具有以下特点:①规模大,主要包括近180 000条人类文本和相同数量的ChatGPT生成文本;②双语数据,包括英文和中文文本;③风格多样化,开放领域文本涵盖正式风格的文本和口语化风格的文本,包括新闻、社交媒体文本和用户评论;④文本长度多样化,包括数个字符的超短文本和上千字符的长文本。最后,该文对提出的数据集进行语言学分析,并评估了当前的主流基准方法。

    ChatGPT文本生成文本分类数据集开放领域

    中文糖尿病问题分类体系及标注语料库构建研究

    钱晓波谢文秀龙绍沛兰牧融...
    54-63页
    查看更多>>摘要:作为一种典型慢性疾病,糖尿病已成为全球重大公共卫生挑战之一。随着互联网的快速发展,庞大的二型糖尿病患者和高危人群对糖尿病专业信息获取的需求日益突出,糖尿病自动问答服务在患者和高危人群的日常健康服务中也发挥着越来越重要的作用,缺点是缺乏细粒度分类等突出问题。该文设计了一个表示用户意图的新型糖尿病问题分类体系,包括6个大类和23个细类。基于该体系,该文从两个专业医疗问答网站爬取并构建了一个包含122 732个问答对的中文糖尿病问答语料库DaCorp,同时对其中的8 000个糖尿病问题进行了人工标注,形成一个细粒度的糖尿病标注数据集。此外,为评估该标注数据集的质量,该文实现了 8个主流基线分类模型。实验结果表明,最佳分类模型的准确率达到88。7%,验证了糖尿病标注数据集及所提分类体系的有效性。Dacorp、糖尿病标注数据集和标注指南已在线发布,可以免费用于学术研究。

    糖尿病问题分类分类体系语料库建设

    融入置信度的文本图像翻译研究

    伍凌辉马聪周玉韩旭...
    64-73页
    查看更多>>摘要:文本图像翻译旨在将嵌在图像中的源端语言文本翻译成目标语言。文本图像翻译系统通常由相互独立的光学字符识别(Optical Character Recognition,OCR)和机器翻译(Machine Translation,MT)模型级联组成。OCR模型将文本图像识别成转录文本,MT模型将转录文本翻译成目标语言。由于OCR模型转录文本存在噪声,而MT模型对噪声文本表现不佳,文本图像翻译系统性能远不如纯文本机器翻译系统。为缓解噪声文本带来的问题,鲁棒性机器翻译主要采用以下两种方法:①使用合成噪声文本,以模拟OCR转录带来的噪声;②利用干净文本和噪声文本的对比学习,拉近噪声文本和干净文本的分布。未能考虑以下问题:①忽视来自OCR模型的置信度信息,未能考虑OCR和MT系统的有效融合;②仅采用合成噪声,类型单一,无法覆盖实际噪声类型;③仅采用句子粒度的粗粒度对比损失,忽略细粒度的词的对比信息。为解决上述问题,该文提出一种融合置信度信息的文本图像翻译方法,充分利用转录文本中每个字符输出的概率分布,得到每个词的置信度信息,使级联式文本图像翻译系统中的OCR模型和机器翻译模型产生更有效的融合;同时针对OCR转录文本的噪声特点,设计了一种能提供词粒度的对比信息的监督文本,进一步提升模型性能。实验表明,该文所提方法在中译英以及英中文本图像翻译任务上相较于传统的管道式模型得到了显著提升。

    置信度文本图像翻译鲁棒性神经机器翻译

    基于增大隐表示差异的鲁棒性机器翻译方法

    薛征山史庭训熊德意汪浩...
    74-82页
    查看更多>>摘要:对比学习是当前机器翻译鲁棒性研究的主流方法。该方法通常在输入Token层或者Embedding层加入噪声,以扩大样本库并丰富样本风格。然而,噪声样本在经过Encoder处理后,会减弱其与干净样本在隐表示上的差异性,从而限制了对比学习方法的性能。该文通过在Encoder隐表示上直接添加高斯噪声,保持了噪声样本和干净样本在隐表示上的差异性。在Decoder端,通过联合训练噪声样本损失和KL散度损失,最小化KL散度损失使噪声样本的目标概率分布接近干净样本的目标概率分布。在IWSLT2014 De-En任务上,相对于强对比系统R-Drop和SimCut,在干净测试集上提升了 0。9 BLEU,在噪声测试集上,分别提升0。82 BLEU和0。63 BLEU,显著提升了模型的翻译效果,并增强了模型对噪声输入的鲁棒性。该技术应用到语音翻译(Speech-to-Text)任务上,在MuST-C测试集和CoVoST 2多说话人测试集上,相对于强对比系统ConST,分别提升1。3 BLEU和3。0 BLEU。相比多任务学习基线系统(MTL),分别提升1。8 BLEU和1。5 BLEU,同样显著提升了翻译效果。

    神经机器翻译鲁棒性机器翻译对比学习语音翻译

    面向大语言模型的藏语指令数据集构建

    朱孟笑沙九冯冲
    83-96页
    查看更多>>摘要:指令微调是增强大语言模型(LLMs)能力的关键技术,受到了学术界和工业界的广泛关注。目前针对英语、汉语等资源丰富的语种的大语言模型取得了超出预期的效果,其重要原因之一是依托丰富的语言资源构建的大规模指令数据集能够有效支撑目标任务的指令微调。而对于低资源语言,LLMs的相关研究与应用尚处于起步阶段。该文以藏语作为低资源语言的代表,研究了面向大语言模型指令微调的数据集构建方法。首先,通过收集网页及社交媒体上的藏语文本构成原始藏语数据,并对此数据进行过滤、去重等预处理,形成质量较好的藏语数据集;然后,根据不同数据的特点,有针对性地进行人工标注,形成高质量的指令数据集。此外,为了保证数据的多样性,该文收集部分高质量的中文指令数据集,采用基于翻译的方法来构造藏语指令数据集以作为人工标注数据的补充,最终形成了包含12个子任务的384K条藏语指令数据,并将数据开源用于相关科学研究。最后通过实验验证了该文发布的藏语指令数据集能够大幅提升大语言模型在藏语上的文本生成与理解能力。

    大语言模型低资源语言藏语数据指令数据

    数字人文视域下的青藏高原文旅知识图谱构建研究——以塔尔寺为例

    李鑫豪赵维纳马龙龙安波...
    97-105页
    查看更多>>摘要:青藏地区素有"高原文化宝库"之称。然而受闭塞的交通条件和较滞后的经济水平的限制,青藏地区文旅资源的保护与弘扬工作始终处于滞后状态。为改善这一现状,该文以数字人文为导向,提出一套文旅知识图谱构建范式,在提示学习框架下采用联合学习的方式对文本中的实体与关系进行抽取,实现低资源条件下的知识抽取,并以全国重点文物保护单位"塔尔寺"为代表,完整地介绍了塔尔寺知识图谱从原始数据获取、本体设计、知识抽取到可视化展示的详细流程。最终,该文所构建的塔尔寺知识图谱共包含4 705个节点及17 386条关系。

    青藏文化提示学习联合抽取塔尔寺知识图谱