首页|面向非易失存储器的倒排索引关键技术研究

面向非易失存储器的倒排索引关键技术研究

兰鹏

面向非易失存储器的倒排索引关键技术研究

兰鹏1
扫码查看

作者信息

  • 1. 中国科学院大学
  • 折叠

摘要

随着信息时代的发展,大量的社交应用与新闻媒体每天生产了大量的文本数据,文本数据迎来了爆炸式的增长,由此带来的文本检索的需求也越来越多。倒排索引是文本检索领域的底层关键技术,大量的文本数据使得人们对其性能也有了更高的要求。非易失存储器(Non-Volatile Memory,NVM)作为新一代的存储器,具有字节寻址、强大的随机读写性能与掉电数据不丢失等特性,有望成为下一代存储设备的核心,利用NVM提升软件系统的性能已经成为体系结构与数据存储方向研究的热点之一。 目前的倒排索引存储结构是针对硬盘等块设备而设计,块设备的随机读写性能弱,需保证每个词项的倒排表连续存放以减少查询过程中带来的随机读。因此倒排索引创建的过程中,大量的计算被用于倒排索引合并,在消耗CPU资源的同时,也大大增加了创建索引的时间。为加快索引的创建,搜索引擎等应用在创建倒排索引的同时还会进行部分倒排索引的合并,由此也带来了写放大问题。针对倒排索引创建过程中的合并问题,本文根据NVM的物理特性优化了倒排索引的存储结构,减少了索引创建过程的合并,论文主要贡献如下: 1.针对倒排索引创建耗时长的问题,提出了一种基于词典合并的虚拟段合并方法,设计新的存储结构,并用词典合并代替完整的倒排索引段合并,使合并效率提升了9倍,倒排索引的总体创建时间提升了20%,并减少了创建索引56%的数据写入。 2.针对本文设计的倒排索引带来低频词查询延迟增大的问题,提出了一种基于延迟写入的低频词合并方法,通过对低频倒排索引延迟保存,使得低频倒排表数量明显下降,并通过后台合并剩余的低频倒排表,降低了低频倒排表的查询延迟。 3.针对未合并的倒排表在块设备上查询延迟较大,且非易失存储器不宜作为数据仓库的问题,实现了倒排索引跨介质迁移合并,在索引从NVM迁移到SSD的过程中,进行倒排索引的整体合并,使保存到块设备上的倒排索引能够发挥出良好的查询性能。 本文在维基百科英文文档集上进行了大量的实验和测试,验证了上述研究点的有效性。

关键词

非易失存储器/倒排索引/低频词合并/延迟写入/查询性能

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

李波

学位年度

2022

学位授予单位

中国科学院大学

语种

中文

中图分类号

TP
段落导航相关论文