首页期刊导航|计算机应用研究
期刊信息/Journal information
计算机应用研究
四川省电子计算机应用研究中心
计算机应用研究

四川省电子计算机应用研究中心

刘营

月刊

1001-3695

arocmag@163.com

028-85249567

610041

成都市成科西路3号

计算机应用研究/Journal Application Research of ComputersCSCD北大核心CSTPCD
查看更多>>本刊创刊于1981年,以其新颖性、技术性、实用性、工具性、知识性于一身,设置众多栏目,信息量极大,反映并涵盖了当今国内外计算机应用研究的主流技术、热点技术及最新发展趋势,是一份极具收藏价值的技术刊物。本刊读者对象为从事计算机应用、开发、研究的科技人员,大中专院校师生,各企事业单位技术人员,计算机业余爱好者及相关管理、情报工作者订阅、收藏。本刊现为中国计算机学会会刊,中国科技论文统计源核心期刊,全国中文核心期刊,中国科学引文数据库来源期刊, 中国学术期刊综合评价数据库来源期刊,并为多个检索数据库收录,在国内科技期刊评比中多次荣获优秀科技期刊奖。
正式出版
收录年代

    基于空间注意力推理机制的视觉问答算法研究

    李智涛周之平叶琴
    952-955页
    查看更多>>摘要:针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究.在分析现有注意力网络的基础上,提出使用自注意力模块(self-attention,SA)和空间推理注意力模块(spatial reasoning attention,SRA)对文本信息和图像目标进行映射,最终得到融合特征输出.相较于其他注意力机制,SA和SRA可以更好地将文本信息匹配图像目标区域.模型在VQAv2数据集上进行训练和验证,并在VQAv2数据集上达到了64.01%的准确率.

    视觉问答注意力机制多模态学习自注意力空间推理注意力

    基于硬注意力机制的多模态视频字幕的处理

    郭宁宁蒋林华
    956-960页
    查看更多>>摘要:传统的视频字幕生成模型大多都采用编码器—译码器框架.在编码阶段,使用卷积神经网络对视频进行处理.在解码阶段,使用长短期记忆网络生成视频的相应字幕.基于视频的时序相关性和多模态性,提出了一个混合型模型,即基于硬注意力的多模态视频字幕的生成模型.该模型在编码阶段使用不同的融合模型将视频和音频两种模态进行关联,在解码阶段基于长短期记忆网络的基础上加入了硬注意力机制来生成对视频的描述.这个混合模型在数据集MSR-VTT(Microsoft research video to text)上得到的机器翻译指标较基础模型有0.2%~3.8%的提升.根据实验结果可以判定基于硬注意力机制的多模态混合模型可以生成视频的精准描述字幕.

    编码器—解码器多模态融合注意力机制