首页|面向时间序列的微博话题演化模型研究

面向时间序列的微博话题演化模型研究

张佩瑶

面向时间序列的微博话题演化模型研究

张佩瑶1
扫码查看

作者信息

  • 1. 西安电子科技大学
  • 折叠

摘要

互联网已经渗透到国民生活的各个方面,新型媒体也逐渐成为信息发布与传播的主要平台,网络舆情已成为整个社会舆情中的重要组成部分。而正因为网络具有虚拟性和开放性,使得网络舆情的传播存在反复波动的特点,特别是热点事件在长期的演化过程中,出现多个高峰,其内容焦点很可能随时间的变化发生了动态迁移,出现阶段性渐变的特点。及时发现网络热点话题焦点的迁移,并动态跟踪话题的演变趋势,可以提供更完整的事件动态演化轨迹,帮助网民更直观清晰地掌握新闻事件的来龙去脉,对于分析网络舆情态势具有重要意义,也是网络舆情分析的重要内容。 论文首先分析了话题演化的意义,对目前话题演化模型现状进行了深入的探讨与研究;然后根据本文要研究的微博文本数据的特点,提出本文的话题演化框架。话题事件在话题发展的每一阶段都有不同的话题焦点,所以可以通过时间片来切分话题,通过分析不同时间片话题焦点关注度和内容变化了解话题的演化规律。论文分析了焦点特征词与噪声词的分布特点,构造焦点词提取公式,建立焦点特征词集合;使用Skip-gram模型在文本集上训练词向量模型并保存,将每一时间片的微博文本输入BTM得到候选主题,直接在BTM主题维上结合焦点特征词集合构造主题词向量;最后利用K-means算法对主题词向量聚类,得到融合后的主题,进而建立文本集在不同时间片话题间的关联。 通过在真实数据集上进行实验,并通过与相关方法进行对比实验,可以发现,本文基于词向量的焦点话题识别能够有效抽取各阶段的话题,在引进词向量的方法上充分挖掘词语之间的相似度,提高话题聚类效果;同时在话题内容和强度两方面完成分析。在话题内容分析上利用WMD算法计算话题间的相似度;在话题强度分析上提出基于微博权重与话题概率两个方面来计算方法。

关键词

网络话题/焦点特征词/BTM模型/词向量/话题相似度

引用本文复制引用

授予学位

硕士

学科专业

图书情报与档案管理

导师

刘东苏

学位年度

2019

学位授予单位

西安电子科技大学

语种

中文

中图分类号

TP
段落导航相关论文