计算机技术与发展2022,Vol.32Issue(4) :44-50.DOI:10.3969/j.issn.1673-629X.2022.04.008

基于候选主题词与话题分类的人物行为研究

Research on Character Behavior Based on Candidate Keywords and Topics Classification

刘晓芳 欧荣安 罗欢 刘芳婷 张辉极 韩冰 赵建强
计算机技术与发展2022,Vol.32Issue(4) :44-50.DOI:10.3969/j.issn.1673-629X.2022.04.008

基于候选主题词与话题分类的人物行为研究

Research on Character Behavior Based on Candidate Keywords and Topics Classification

刘晓芳 1欧荣安 2罗欢 3刘芳婷 4张辉极 1韩冰 2赵建强5
扫码查看

作者信息

  • 1. 厦门市美亚柏科信息股份有限公司,福建 厦门361008
  • 2. 广州市刑事科学技术研究所,广东 广州 510030
  • 3. 福州大学,福建 福州 350108
  • 4. 厦门市人民检察院检察技术信息部,福建 厦门 361008
  • 5. 厦门市美亚柏科信息股份有限公司,福建 厦门361008;西安电子科技大学,陕西 西安 710071
  • 折叠

摘要

如何从海量聊天数据获取聊天主题和聊天人物行为是案件智能化分析的热点问题之一.传统词嵌入方法,将文本中的所有词汇映射到向量空间,存在词汇特征冗余的问题.为了缓解这一问题,该文提出一种基于候选主题词的话题分类算法—CTW(candidate topic words).该算法使用LDA主题模型抽取聊天文本中的关键词,使用预训练词向量得到显著的语义特征,同时为增强特征,将字符特征与获取的词汇特征进行融合.传统方法同时还存在只关注话题无法更精确地刻画人物行为的问题.针对该问题,该文提出了同时获取聊天话题和人物行为的方案:针对已归类的话题,该方案使用群成员互动强度、群成员活跃度作为人物行为网络中的权值,构建话题参与人的行为网络图;最后通过成员在群中的备注给人物赋予不同的社会标签,以丰富人物行为.实验表明,提出的话题分类算法,在实际搜集的数据集上比基线模型拥有更佳的性能,在获取群聊话题的同时得到了更丰富的人物行为描述.

关键词

聊天主题/候选主题词/话题分类/人物行为/互动强度/群成员活跃度/社会标签

引用本文复制引用

基金项目

广州科技攻关重大专项(201903007)

国家自然科学基金青年基金(G61801121)

出版年

2022
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量13
段落导航相关论文