首页|大规模中文金融情感分析数据集自动构建

大规模中文金融情感分析数据集自动构建

Automatic Construction of Large-scale Chinese Financial Sentiment Analysis Dataset

扫码查看
金融文本中蕴含着丰富的情感信息,对于捕捉金融市场情绪波动、辅助投资者决策以及实施金融风险管理等都具有重要意义.然而,金融文本的情感标注需要大量领域专家知识,人工标注成本高昂.文章设计了一种基于表情符号远监督指导的自动标注策略,将金融文本中表情符号所表达的情感含义作为指导信息,自动标注文本的情感倾向,构建基础标注数据集;在此基础上,采用持续学习算法训练金融文本情感分类器,预测未标注数据,生成伪标签样本,进一步扩展标注数据集.最终,自动构建了一个包含923万余条股市评论的大规模中文金融情感分析数据集StockSentCN.在人工评估体系下,该数据集的Kappa一致性系数达到0.85,加权平均F1值达到90.34%,证明了所构建数据集的高质量与可靠性.数据集公开下载地址为:https://github.com/lidayuls/StockSentCN/.
Rich sentiment information is embedded in financial texts,which is of great significance for capturing fluctuations in fi-nancial market sentiment,aiding investor with decision-making,and implementing financial risk management.However,sentiment annotation in financial texts requires extensive domain expertise,making manual annotation costly.This paper designs an automatic annotation strategy based on distant supervision guided by emojis,utilizing the sentiment connotations conveyed by emojis in finan-cial texts to automatically label the sentiment polarity,thereby constructing a foundational labeled dataset.On this basis,the continu-al learning algorithm is employed to train a financial text sentiment classifier,predicting sentiment for unlabeled data and generating pseudo-labeled samples,and further augmenting the labeled dataset.Ultimately,a large-scale Chinese financial sentiment analysis dataset named StockSentCN,encompassing over 9.23 million stock comments,is automatically constructed.Under the human evalu-ation system,the Kappa consistency coefficient of the dataset reached 0.85,and the weighted average F1 score reached 90.34%,proving the high quality and reliability of the constructed dataset.The dataset is publicly available at:https://github.com/lidayuls/StockSentCN/.

Chinese financial sentiment analysisstock market sentimentdataset constructionemojiscontinual learning

李大宇、李旸、王素格

展开 >

山西财经大学 金融学院,山西 太原 030006

山西大学 计算机与信息技术学院,山西 太原 030006

中文金融情感分析 股市情感 数据集构建 表情符号 持续学习

国家自然科学基金国家自然科学基金山西省基础研究计划项目山西省基础研究计划项目山西省高等学校科技创新项目

6230616962106130202203021212499202103021240842022L271

2024

山西大学学报(自然科学版)
山西大学

山西大学学报(自然科学版)

CSTPCD北大核心
影响因子:0.287
ISSN:0253-2395
年,卷(期):2024.47(4)
  • 23