首页期刊导航|中文信息学报
期刊信息/Journal information
中文信息学报
中文信息学报

孙茂松

双月刊

1003-0077

cips@iscas.ac.cn

010-62562916

100190

北京海淀区中关村南四街4号

中文信息学报/Journal Journal of Chinese Information ProcessingCHSSCDCSCD北大核心CSTPCD
查看更多>>本刊于1986年创刊,是经国家科委批准,由中国科学技术协会主管,中国中文信息学会和中国科学院软件研究所合办的学术性刊物,是中国中文信息学会会刊。《中文信息学报》是《中文核心期刊要目总览》自动化、计算机技术类的核心刊物。国内外公开发行。它及时反映我国中文信息处理的学术水平,重点刊登我国中文信息处理基础理论与应用技术研究的学术论文,以及相关的综述、研究成果、技术报告、书刊评论、专题讨论、国内外学术动态等。从本刊刊登的文章中可以及时了解我国最新的中文信息处理水平和学术动向。所刊登的文章多数得到了国家或省、部级重大科技项目、攻关项目及自然科学和社会科学基金的资助。
正式出版
收录年代

    基于参数高效微调的藏文大模型研究

    杨毛加柔特才智杰官却才让...
    106-115页
    查看更多>>摘要:大模型是指拥有庞大参数量的深度学习模型,具备强大的表征学习和生成能力,对自然语言处理等领域产生了深远影响.随着技术的不断进步.大模型在性能和应用范围上不断取得突破,成为人工智能领域的研究热点.然而,大模型的发展也面临着一些挑战,如模型训练成本高、参数冗余以及跨语言应用存在局限性等.特别地,在藏文这一具有独特语言特性的研究领域,大模型的研究尚处于起步阶段,缺乏相应的模型和资源支持.针对上述问题,该文通过基于LoRA的参数高效微调方法,提出了基于Llama2模型架构构建的Tibetan-Llama2和Tibetan-Alpaca模型,经过较大规模数据的增量预训练和指令微调,上述两种模型具备了对藏文的长文本理解和生成能力,展现了其多任务学习能力,并且在多个领域都有广泛的应用前景.

    自然语言处理藏文大模型参数高效微调增量预训练指令微调

    藏文音节查错纠错模型研究

    珠杰郑任公拉巴顿珠德庆卓玛...
    116-126页
    查看更多>>摘要:针对藏文文本自动校对研究中缺乏高质量标注语料、鲜有纠错任务研究等问题,该文以藏文音节为单元的等长文本为研究内容,通过分析藏文文本错误类型,开展了藏文查错、纠错模型研究,该文主要贡献如下:①针对缺乏标注语料问题,一是提出了结合语言知识的藏文混淆集构建算法,自动建立了音似、形似和拼写错误音节的混淆集,二是根据音似、形似、动词时态、易错虚词的不同混淆集,提出了加噪算法,在等长文本中将正确音节替换为错误音节.②针对查错问题,提出了基于预训练模型 Word2Vec和ELMo的BiGRU-Attention藏文音节查错模型.最终实验表明,使用预训练模型能有效提升藏文音节查错效果,其中ELMo-BiGRU-Attention模型的查错效果达到最佳,音节级查错F1为90.91%,句子级查错F1 为83.24%.③针对纠错问题,提出了 soft-masked+BERT的藏文音节纠错网络,效果最好的模型音节级查错F1和纠错F1分别为95.51%和90.69%,句子级查错F1和纠错F1分别为 86.34%和 79.77%.

    藏文音节查错模型纠错模型预训练软掩码

    标签先验知识增强的方面类别情感分析方法研究

    吴任伟李琳何铮袁景凌...
    127-136,147页
    查看更多>>摘要:当前,基于方面类别的情感分析研究集中于将方面类别检测和面向类别的情感分类两个任务协同进行.然而,现有研究未能有效关注情感数据集中存在的噪声标签,影响了情感分析的准确率.基于此,该文提出一种标签先验知识增强的方面类别情感分析方法(AP-LPK).首先该文为面向类别的情感分类构建了自回归提示训练方式,可以有效利用预训练语言模型的学习能力.同时该方式通过自回归生成标签词,以期获得比非自回归更好的语义一致性.其次,每个类别的标签分布作为标签先验知识引入,并通过伯努利分布对其做进一步精炼,以减轻噪声标签的干扰.然后,AP-LPK将上述两个步骤分别得到的情感类别分布进行融合,以获得最终的情感类别预测概率.最后,该文提出的AP-LPK方法在五个数据集上进行评估,包括SemEval 2015和SemEval 2016的四个基准数据集和AI Challenger 2018的餐饮领域大规模数据集.实验结果表明,该文提出的方法在F,指标上优于现有方法.

    基于方面类别的情感分析提示学习标签先验知识

    融合属性项情感的异质图神经网络产品推荐模型

    李旸符玉杰王素格郑建兴...
    137-147页
    查看更多>>摘要:建立用户兴趣与产品属性项间的关联关系,有助于提升产品推荐系统中的准确度,因为在产品评论数据中,属性项可以作为构建用户与产品间关系的媒介.该文利用BERT-SAN/ChatGLM-Turbo自动获取评论数据的属性项情感信息,度量了用户对属性项的偏好度和属性项对产品口碑的贡献度,刻画了用户兴趣和产品口碑.在此基础上,以属性项为媒介构建了用户与产品关系的关联二部图,提出了融合属性项情感的多头注意力机制的异质图神经网络产品推荐模型,模型实现了图中边的更新和结点更新.最后,基于平均误差(MSE)训练了稳定的用户与产品属性项关联的二部图图神经网络产品推荐模型.在Yelp Restaurant和Digital Music两个数据集上进行了实验,验证了融合属性项情感的多头注意力机制的异质图神经网络产品推荐模型相比传统方法能够取得更好的性能,且属性项情感信息可以为产品推荐的可解释性提供依据.

    属性项情感分析图神经网络用户偏好度属性项贡献度可解释性

    基于大语言模型与检索增强的学科试题生成方法

    来雨轩王艺丹王立
    148-158页
    查看更多>>摘要:智能命题是自然语言处理与智能教育交叉领域的一项重要任务.现有问题生成方法过于聚焦材料文本细节,而忽略了对知识点本身的考察.该文提出了一种基于大语言模型与检索增强技术的学科试题生成方法.该方法设计了明确的指令提问方式,并融合少样本语境学习与检索得到的教材相关信息,以激发大语言模型的潜力,让生成试题在风格和难度等方面符合实用需求.两种题型的试题生成结果表明,该文方法在自动评价和人工评价中较基线模型取得了更高的可用率和多样性,直接可用率达到了人类专家的77.5%,且高质量试题的比例略超过人工结果,基本满足大规模试题生成的应用需求.

    大语言模型检索增强技术问题生成智慧教育

    生成,推理与排序:基于多任务架构的数学文字题生成

    曹天旸许晓丹常宝宝
    159-169,180页
    查看更多>>摘要:数学文字题是一段能反映数学等式潜在逻辑的叙述性文本.成功的数学问题生成在语言生成和教育领域都具有广阔的应用前景.前人的工作大多需要人工标注的模板或关键词作为输入,且未考虑数学表达式本身的特点.该文提出了一种多任务联合训练的问题文本生成模型.作者设计了三个辅助任务,包括数字间关系抽取、数值排序和片段替换预测.它们与生成目标联合训练,用以监督解码器的学习,增强模型对运算逻辑和问题条件的感知能力.实验证明,该文所提方法能有效提升生成的数学文字题的质量.

    数学文字题生成多任务学习

    细粒度文本引导的跨模态风格迁移

    孙世昶魏爽孟佳娜林鸿飞...
    170-180页
    查看更多>>摘要:借助于StyleGANs的解纠缠表示和多模态预训练模型中不同模态之间的语义对应关系,现有方法在跨模态风格迁移领域取得了较好的结果.然而,基于图像尺度分解的StyleGANs的潜在空间不利于局部属性的编辑,这会造成在迁移时对无关部分的干扰.该文提出细粒度文本引导的跨模态风格迁移模型,通过利用文本中包含的区域信息来实现局部可控的风格迁移.首先,通过基于BERT的文本语义分类网络对目标风格文本包含的语义区域进行定位,然后利用特征映射网络将目标文本的CLIP特征嵌入到SemanticStyleGAN的潜在空间.文本语义分类网络和特征映射网络的结合使得目标文本的CLIP特征细粒度地嵌入到可编辑的潜在空间.最后通过对生成的风格化图像进行随机透视增强来解决训练中的对抗生成问题.实验表明,该方法能够生成更贴近文本描述风格的图像,并提高了跨模态编辑的区域准确性.

    风格迁移多模态预训练模型文本语义分类

    中国中文信息学会2024学术年会暨第三届全国大模型智能生成大会(CIPS-LMG 2024)特邀报告、分论坛及前沿技术讲习班

    中国中文信息学会
    后插1页