首页|CCI-ClipCap:一种基于Prompt范式的中国陶瓷图像描述模型

CCI-ClipCap:一种基于Prompt范式的中国陶瓷图像描述模型

扫码查看
[目的]构建中国陶瓷图像描述模型CCI-ClipCap,为陶瓷文化研究和数字化保护提供技术支撑.[方法]在ClipCap的基础上,引入Prompt范式改善模型对跨模态数据的理解,实现对陶瓷图像的自动描述,提出一种针对具有一定表述结构的文本相似度评估方法.[结果]CCI-ClipCap模型利用Prompt范式改进了多模态融合过程,能够很好地提取陶瓷图像的信息,并生成与实际相符的描述文本,Bleu、Rouge值等相较于基线模型分别提升了约0.04、0.14.[局限]所使用的数据来源于大英博物馆的馆藏数据,而非中文原生数据集,数据来源较为单一.[结论]CCI-ClipCap模型生成的文本表达层次丰富,能够理解陶瓷领域知识,具有较强的专业性.
CCI-ClipCap:A Chinese Ceramic Image Description Model Based on Prompt Paradigm
[Objective]This study aims to construct a Chinese Ceramic Image Description Model(CCI-ClipCap)to provide technical support for ceramic culture research and digital preservation.[Methods]Based on ClipCap,the prompt paradigm is introduced to improve the model's understanding of cross-modal data,enabling automatic description of ceramic images.Additionally,we proposed a text similarity evaluation method tailored for structured textual representation.[Results]The CCI-ClipCap model improved the multi-modal fusion process with the prompt paradigm,effectively extracting information from ceramic images and generating accurate textual descriptions.Compared to baseline models,the Bleu and Rouge values increased by 0.04 and 0.14,respectively.[Limitations]The data used originated from the British Museum collections,not native Chinese datasets.This single-source data may affect the model's performance.[Conclusions]The CCI-ClipCap model generates text with rich levels of expression,demonstrating a soild understanding of ceramic knowledge and exhibiting high professionalism.

Digital HumanitiesImage CaptioningMultimodal LearningClipCapPrompt

石斌、王昊、刘懋霖、邓三鸿

展开 >

南京大学信息管理学院 南京 210023

数据工程与知识服务江苏省高校重点实验室(南京大学) 南京 210023

数字人文 图像描述 多模态学习 ClipCap Prompt

2024

数据分析与知识发现
中国科学院文献情报中心

数据分析与知识发现

CSTPCDCSSCICHSSCD北大核心EI
影响因子:1.452
ISSN:2096-3467
年,卷(期):2024.8(10)