摘要
表情符和标签都是各大社交媒体平台上独具特色的网络表达形式,已经被社交媒体用户广泛接受并大量运用。利用到表情符和标签的自然语言处理任务也逐渐热门起来。面向社交媒体平台的表情符预测和标签生成任务作为语言研究相关的新热点,正渐渐吸引更多研究人员对其展开研究工作。表情符预测和标签生成任务指的是根据帖子中提取到的信息对该帖子中可能出现的表情符以及可能使用到的标签进行预测和生成的任务。当前表情符预测和标签生成的研究通常集中在将辅助信息添加到神经网络模型中的方法,并且把表情符预测和标签生成视为两个独立进行的任务,忽略了表情符预测和标签生成任务之间的相关性。 本文考虑到表情符预测和标签生成之间存在的耦合关系,两个任务可以采用相同的输入数据。并且表情符和标签在帖子中的运用具有一定的作用重叠。这些都满足联合预测模型的联合要求。因此,本文提出了面向社交媒体平台的表情符预测和标签生成的双任务联合预测模型(Joint Prediction Model, JPM),并对该模型的权重参数选取进行了探讨。该模型可以将帖子信息处理并生成文本信息表示,同时完成表情符预测和标签生成。为了证明JPM模型的有效性,我们构建了一个包含5种数据集的语料库,包括一个来自推特平台的英文数据集和四个来自新浪微博平台的中文数据集,分别与养老领域相关、与房产领域相关、与汽车领域相关,以及与NBA篮球领域相关,以此验证JPM模型对不同语言、不同领域的数据集是否有相同的处理效果。作为对比我们还提出了8个单任务预测模型,分别对表情符预测和标签生成进行实验。本文通过实验对比证明了JPM模型的优秀性能,并根据预测结果深入分析了各个模型的优缺点以及往后的研究思路和学习方向。 综上所述,本文对表情符预测和标签生成两个任务展开了一系列的预测方法探索实验,通过预测效果证明了JPM双任务联合预测模型对于不同领域、不同社交媒体平台、不同语言都表现出更佳的预测能力,阐述了多种预测模型的优势和不足,并对以后的研究方向进行分析和展望。