计算机工程与设计2024,Vol.45Issue(9) :2712-2718.DOI:10.16208/j.issn1000-7024.2024.09.021

基于互信息最大化的文档相关性模型

Document relevance model based on mutual information maximization

陆敏锋 张启飞 卢成浪 吴菁
计算机工程与设计2024,Vol.45Issue(9) :2712-2718.DOI:10.16208/j.issn1000-7024.2024.09.021

基于互信息最大化的文档相关性模型

Document relevance model based on mutual information maximization

陆敏锋 1张启飞 2卢成浪 1吴菁1
扫码查看

作者信息

  • 1. 浙江机电职业技术学院现代信息技术学院,浙江杭州 310053
  • 2. 浙江大学软件学院,浙江宁波 315048
  • 折叠

摘要

针对传统的文档相关性识别方法在训练过程中文档信息提取不充分的问题,提出一种互信息最大化框架下的深度学习方法.涉及一个无监督学习过程,使用全局和局部互信息学习文档表示,最大化神经网络的输入表示和输出表示之间的互信息,提取更为丰富的文档内容和结构信息,优化模型预测结果.经过在多项任务上的评估,实验结果表明了该方法的可行性和有效性,与一些传统的方法相比,其在准确度上有相当或更好的表现.

Abstract

To address the issue of inadequate information extraction from documents during the training process of traditional document relevance identification methods,a deep learning method based on maximizing mutual information was proposed.An unsupervised learning process that utilized global and local mutual information to learn document representations was involved,with the aim of maximizing the mutual information between the input and output representations of the neural network.The extraction of more comprehensive document content and structural information was enabled,resulting in improved model predic-tion results.Evaluation on multiple tasks demonstrates the feasibility and effectiveness of the proposed method which performs comparably or even better in accuracy than that of some traditional methods.

关键词

互信息/文档表示/文档相关性/最大化/无监督学习/残差网络/全局特征

Key words

mutual information/document representation/document relevance/maximization/unsupervised learn/residual net-work/global feature

引用本文复制引用

基金项目

教育部人文社科研究青年基金项目(21YJCZH096)

杭州市哲学社会科学规划课题基金项目(M22JC067)

出版年

2024
计算机工程与设计
中国航天科工集团二院706所

计算机工程与设计

CSTPCD北大核心
影响因子:0.617
ISSN:1000-7024
段落导航相关论文