首页|基于候选主题词与话题分类的人物行为研究

基于候选主题词与话题分类的人物行为研究

扫码查看
如何从海量聊天数据获取聊天主题和聊天人物行为是案件智能化分析的热点问题之一.传统词嵌入方法,将文本中的所有词汇映射到向量空间,存在词汇特征冗余的问题.为了缓解这一问题,该文提出一种基于候选主题词的话题分类算法—CTW(candidate topic words).该算法使用LDA主题模型抽取聊天文本中的关键词,使用预训练词向量得到显著的语义特征,同时为增强特征,将字符特征与获取的词汇特征进行融合.传统方法同时还存在只关注话题无法更精确地刻画人物行为的问题.针对该问题,该文提出了同时获取聊天话题和人物行为的方案:针对已归类的话题,该方案使用群成员互动强度、群成员活跃度作为人物行为网络中的权值,构建话题参与人的行为网络图;最后通过成员在群中的备注给人物赋予不同的社会标签,以丰富人物行为.实验表明,提出的话题分类算法,在实际搜集的数据集上比基线模型拥有更佳的性能,在获取群聊话题的同时得到了更丰富的人物行为描述.
Research on Character Behavior Based on Candidate Keywords and Topics Classification

刘晓芳、欧荣安、罗欢、刘芳婷、张辉极、韩冰、赵建强

展开 >

厦门市美亚柏科信息股份有限公司,福建 厦门361008

广州市刑事科学技术研究所,广东 广州 510030

福州大学,福建 福州 350108

厦门市人民检察院检察技术信息部,福建 厦门 361008

西安电子科技大学,陕西 西安 710071

展开 >

聊天主题 候选主题词 话题分类 人物行为 互动强度 群成员活跃度 社会标签

广州科技攻关重大专项国家自然科学基金青年基金

201903007G61801121

2022

计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
年,卷(期):2022.32(4)
  • 13