摘要
为了提高大数据集基于内容的相似匹配速度,本文采用MapReduce框架实现了一种并行的相似匹配算法,解决了大数据信息安全监测中的快速相似匹配问题.算法基于先过滤、再验证的方式设计了三个阶段.在配对阶段,通过对索引子串和匹配子串进行配对去除了不包含共享q-gram的无关对;在过滤阶段,通过q-gram命中特征过滤掉了一定不是真实匹配的候选对;在验证阶段,通过计算候选对的真实匹配度找出了满足要求的真实匹配.实验结果证明,本文提出的字符串分割过滤方法有效地提高了相似匹配的速度.实验结果也显示新算法较适合匹配度变化范围较大的应用场景.
基金项目
渤海大学国家安全研究院项目(XK202134-30)