结合词嵌入技术的中文输入法词库取证模型研究

扫码查看

原文链接

NETL
NSTL
万方数据
维普

中文摘要：中文输入法软件在日常生活中的使用非常频繁,词库包含许多能够反应用户行为习惯的关键词.目前关于中文输入法词库的取证研究多为对词库中存储字词的提取与词频分析,并不能高效地为侦查人员提供案件相关线索.针对以上问题,提出了结合词嵌入技术的中文输入法词库取证模型,在输入法取证中使用Word2Vec算法中的Skip-Gram模型提取案件相关文本的词向量,并结合向量的关联性分析,补充字典.通过将基于该模型研发的取证工具与常见电子数据取证工具对同一检材的取证结果进行对比,可以验证模型相对高效地提取词库中与案件相关的关键词,为公安机关打击违法犯罪提供借鉴.

作者：

王子昂、汤艳君、孙晓磊

展开 >

作者单位：

中国刑事警察学院

山东警察学院

关键词：

词嵌入技术中文输入法词库电子数据取证 Skip-Gram模型

基金：

中国刑事警察学院研究生创新能力提升项目

项目编号：

2023YCYB32

出版年：

2024

警察技术

公安部第一研究所

警察技术

影响因子：0.386

ISSN：1009-9875

年,卷(期)：2024.(2)

参考文献量9