计算机科学2021,Vol.48Issue(12) :24-28.DOI:10.11896/jsjkx.210600213

基于GPU加速的并行WMD算法

Parallel WMD Algorithm Based on GPU Acceleration

胡蓉 阳王东 王昊天 罗辉章 李肯立
计算机科学2021,Vol.48Issue(12) :24-28.DOI:10.11896/jsjkx.210600213

基于GPU加速的并行WMD算法

Parallel WMD Algorithm Based on GPU Acceleration

胡蓉 1阳王东 1王昊天 1罗辉章 1李肯立1
扫码查看

作者信息

  • 1. 湖南大学信息科学与工程学院 长沙410082
  • 折叠

摘要

Word Mover's Distance(WMD)是一种度量文本相似度的方法,它将两个文本之间的差异定义为文本的词嵌入向量之间的最小距离.WMD利用词汇表,将文本表示为归一化的词袋向量.文本的单词在语料中所占的比例很小,因此用词袋模型生成的文本向量很稀疏.多个文本可以组成一个高维的稀疏矩阵,这样的稀疏矩阵会生成大量不必要的运算.通过一次性对多个目标文本计算单个源文本的WMD,可以使计算过程高度并行化.针对文本向量的稀疏性,文中提出了一种基于GPU的并行Sinkhorn-WMD算法,采取压缩格式存储目标文本的方式来提高内存利用率,根据稀疏结构减少中间过程的计算.利用预训练词嵌入向量计算单词距离矩阵,对WMD算法进行改进,在两个公开的新闻数据集上进行优化算法的验证.实验结果表明,在NVIDIA TITAN RTX上并行算法与CPU串行相比最高可以达到67.43倍的加速.

关键词

文本相似度/WMD/并行计算/GPU/稀疏矩阵乘法

引用本文复制引用

基金项目

国家重点研发计划(2018YFB0204302)

国家自然科学基金重点项目(92055213)

国家自然科学基金(61872127)

国家自然科学基金(61751204)

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
被引量4
参考文献量17
段落导航相关论文