摘要
自互联网时代起,数字、符号、标签等结构化数据和图像、视频、文本等非结构化数据爆发性增长。这两类数据的高效精准混合查询是实现高质量信息检索的一项关键技术,也是目前工业界亟需突破的瓶颈。当前混合查询方法主要是分别查询结构化和非结构化数据再进行结果合并重排,即前者主要通过传统数据库查询实现,后者主要将非结构化数据向量化并通过近似最近邻搜索(Approximate Nearest Neighbor Search,ANNS)实现。然而,这种分离式的混合查询限制了大规模数据场景下查询效率和精度。针对上述问题,本文主要开展了如下研究工作: (1)研究提出一种基于近邻图ANNS的原生混合查询(Native Hybrid Query,NHQ)方案,通过结构化和非结构化数据各自相似度计算及融合,设计了包括复合索引和联合剪枝两个模块的混合查询框架。该框架可应用当前各种近邻图ANNS算法将异构数据嵌入到一个复合索引中,查询时在复合索引上联合剪枝结构化信息不匹配和非结构化信息不相似的对象以高效获取查询结果。 (2)针对当前近邻图ANNS算法的性能问题,通过改进选边和路由策略提出一种可导航近邻图算法(Navigable Proximity Graph,NPG)。NPG的选边策略同时考虑近邻图邻居之间距离和分布并确保邻居分布多样性以避免冗余计算,路由策略根据不同路由阶段的特点设计搜索算法。实验表明,与当前最优近邻图ANNS算法相比,NPG实现了更好的索引构建和搜索性能。 (3)基于NPG的混合查询方法优化及实现。对于NHQ复合索引模块,采用一种集成异构数据的选边策略在确保顶点与其邻居融合距离相近的同时又均匀化邻居的分布;对于联合剪枝模块,采用一种集成异构数据的两阶段路由策略用于适配不同阶段的路由特征。实验表明,在相同精度的情况下,基于NPG的混合查询方法的查询效率高于现存主流方法一个数量级以上。 最终,本文将实现的混合查询方法应用到图像检索和专家检索系统中。与现存图像检索相比,本文通过附加标签约束在保持检索效率不变的情况下提升了图像检索结果的精度。与现有专家检索方法相比,本文的方法不仅有效实现了根据技术方法描述文本+结构化标签约束的专家精准检索,而且具有更快的索引构建速度以及更优的检索效率和精度。