中国传媒大学学报(自然科学版)2023,Vol.30Issue(5) :1-9.DOI:10.3969/j.issn.1673-4793.2023.05.002

基于无监督技术的中文新闻事件数据构建与分析

Construction and analysis of Chinese news event data based on unsupervised techniques

元方 卢伟 沈浩
中国传媒大学学报(自然科学版)2023,Vol.30Issue(5) :1-9.DOI:10.3969/j.issn.1673-4793.2023.05.002

基于无监督技术的中文新闻事件数据构建与分析

Construction and analysis of Chinese news event data based on unsupervised techniques

元方 1卢伟 1沈浩1
扫码查看

作者信息

  • 1. 中国传媒大学媒体融合与传播国家重点实验室,北京 100024
  • 折叠

摘要

本文针对面向媒介和传播学研究的中文新闻事件数据构建任务进行探索,利用自然语言处理、深度学习和无监督聚类等技术,构建了一套开放性的新闻事件提取框架.构建中文新闻事件数据库的过程可以概括为将原始的新闻文本进行处理,然后进行句法分析和语义角色识别,从中提取三元组,再提取动词并转换为向量表示,之后通过降维和聚类结合人工标注形成结构化数据,最后提出了事件重要性得分以评估新闻中事件的分布情况.利用《人民日报》的新闻数据进行了实验,验证了本文研究的理论与实践价值.

Abstract

In this paper the task of constructing Chinese news event data for media and communication research was explored,technologies such as natural language processing,deep learning,and unsupervised clustering were utilized to construct an open-ended news event extraction framework.The process of constructing the Chinese news event database could be summarized as processing the original news text,performing syntactic analysis and semantic role recognition,extracting triplets from it,then extracting verbs and converting them into vector representations,followed by dimension reduction and clustering combined with manual annotation to form structured data.Finally,an event importance score was proposed to assess the distribution of events in the news.The framework was tested using news data from the People's Daily,validating the practical value of the research.

关键词

新闻事件/事件数据/无监督学习

Key words

news event/event data/unsupervised learning

引用本文复制引用

基金项目

中央高校基本科研业务费专项中国传媒大学项目(CUC23GY004)

出版年

2023
中国传媒大学学报(自然科学版)
中国传媒大学

中国传媒大学学报(自然科学版)

CHSSCD
影响因子:0.514
ISSN:1673-4793
参考文献量3
段落导航相关论文