绥化学院学报2022,Vol.42Issue(2) :143-148.

融合有向图的文本敏感词过滤模型

刘莹 杨超宇
绥化学院学报2022,Vol.42Issue(2) :143-148.

融合有向图的文本敏感词过滤模型

刘莹 1杨超宇1
扫码查看

作者信息

  • 1. 安徽理工大学经济与管理学院 安徽淮南 233000
  • 折叠

摘要

针对敏感词Trie树中敏感词节点重复存储、敏感词变形体识别效率不高的问题,提出了一种基于有向图和DFA的敏感词过滤算法DG-DGA.算法通过有向图存储敏感词库中的敏感词及敏感词间的关系,对待检测文本和敏感词通过汉明距离进行读音相似度计算,设置相似度参数来匹配敏感词,识别读音相近的变形体.实验表明:在全模式匹配下,DG-DGA算法的检测时间约为DFA算法的1/6,且待检测文本数量越大,检测效率越高.结论:在不同敏感词阈值下,DG-DGA算法能较好地识别出读音相似敏感词.

关键词

敏感词/汉明距离/DGA/有向图/DG-DGA算法

引用本文复制引用

基金项目

国家自然科学基金(61873004)

出版年

2022
绥化学院学报
绥化学院

绥化学院学报

影响因子:0.195
ISSN:2095-0438
参考文献量13
段落导航相关论文