计算机研究与发展2021,Vol.58Issue(2) :338-355.DOI:10.7544/issn1000-1239.2021.20200388

基于语义相似性的跨模态图文内容筛选存储机制研究

Content Sifting Storage Mechanism for Cross-Modal Image and Text Data Based on Semantic Similarity

刘渝 郭婵 冯树耀 周可 肖志立
计算机研究与发展2021,Vol.58Issue(2) :338-355.DOI:10.7544/issn1000-1239.2021.20200388

基于语义相似性的跨模态图文内容筛选存储机制研究

Content Sifting Storage Mechanism for Cross-Modal Image and Text Data Based on Semantic Similarity

刘渝 1郭婵 1冯树耀 1周可 2肖志立
扫码查看

作者信息

  • 1. 华中科技大学武汉光电国家研究中心 武汉430074
  • 2. 深圳市腾讯计算机系统有限公司技术工程事业群 广东深圳518054
  • 折叠

摘要

随着多媒体数据的爆发式增长,云端数据呈现出大规模多模态混合并存的特性.服务于数据分析的传统存储系统因为缺乏数据的语义管理而面临读取延时超长的挑战.针对图像和文本2种模态数据,在传统存储系统之上提出一种跨模态图文数据内容筛选存储机制(cross-modal image and text content sifting storage,CITCSS),用于提供大规模在线相似性内容筛选服务,从存储系统层面缓解数据分析时必须从存储中读出所有数据的读带宽压力机制分为离线与在线2个阶段.离线阶段中,引入基于自监督的生成对抗式Hash方法,系统利用这种方法生成语义元数据.然后,将元数据注入独立的元数据空间最后,根据相似性Hash码间汉明距离能够度量语义距离的特点,利用Neo4j图数据库构建Hash元数据图谱,并在语义图谱中建立Hash码与存储路径之间的映射在线阶段中,用户发送与分析相关的图像或文本,存储系统首先转化数据为Hash码然后,在筛选半径内通过Hash元数据图谱寻找相似节点,进而找到相似文件的底层存储路径返回筛选数据.实验结果表明,与传统语义存储系统相比,CITCSS在召回率超过98%的性能下,读取延迟相对降低了99.07%~99.77%.

关键词

语义管理/Hash码元数据/元数据图谱/存储机制/读带宽

引用本文复制引用

基金项目

国家自然科学基金青年科学基金(61902135)

国家自然科学基金创新群体项目(61821003)

出版年

2021
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
参考文献量1
段落导航相关论文