首页|视频描述中多参考语义生成网络

视频描述中多参考语义生成网络

Multi-Reference Semantic Generation Network for Video Captioning

扫码查看
针对视频描述中语义特征表达能力不足导致的文本描述不准确问题,提出一种多参考语义生成网络.该网络以多层感知机为主要结构,在多层感知机的每一层引入视觉特征参考,获取更加丰富有效的语义信息,同时保障原始视觉信息的完整表达.由于多参考语义生成网络利用视觉特征对自身进行补充和调整,能有效增强语义特征的表达能力,提高视频描述的准确性.在MSR-VTT和MSVD数据集上的实验结果表明,多参考语义生成网络在视频描述精度上明显优于同类算法,与SAVC语义辅助视频描述网络相比,平均准确率提升了0.99%.

高航、杨大伟、毛琳

展开 >

大连民族大学 机电工程学院,辽宁 大连116605

视频描述 多参考 语义特征 嵌套结构 捷径连接

国家自然科学基金辽宁省自然科学基金辽宁省自然科学基金辽宁省自然科学基金

6167308420170540192201805508662020-MZLH-24

2022

大连民族大学学报
大连民族学院

大连民族大学学报

CHSSCD
影响因子:0.266
ISSN:1009-315X
年,卷(期):2022.24(5)
  • 3