计算机科学2021,Vol.48Issue(4) :97-103.DOI:10.11896/jsjkx.200900053

融合文本序列和图信息的海关商品HS编码分类

Customs Commodity HS Code Classification Integrating Text Sequence and Graph Information

杜少华 万怀宇 武志昊 林友芳
计算机科学2021,Vol.48Issue(4) :97-103.DOI:10.11896/jsjkx.200900053

融合文本序列和图信息的海关商品HS编码分类

Customs Commodity HS Code Classification Integrating Text Sequence and Graph Information

杜少华 1万怀宇 1武志昊 2林友芳2
扫码查看

作者信息

  • 1. 北京交通大学计算机与信息技术学院 北京 100044
  • 2. 北京交通大学计算机与信息技术学院 北京 100044;综合交通运输大数据应用技术交通运输行业重点实验室 北京 100044
  • 折叠

摘要

海关商品HS编码分类是企业和个人进出口贸易的重要国际程序.HS编码分类可以看作是一个文本分类问题,即给定一段商品的描述,确定商品由HS编码表示的所属类别.然而,该任务比一般的文本分类任务更具挑战性,原因是商品描述文本具有特定的层次结构,同时商品描述文本展现出了两个层次上的序列特征,并且商品描述文本还存在关键信息分散且描述形式多样的特点.现有的文本分类方法无法综合考虑以上因素来捕获商品描述文本中的关键信息.对此,文中提出了一种融合文本序列和图信息的神经网络(Text Sequence and Graph Information combination Neural Network,TSGINN)模型,用于解决海关商品HS编码分类问题.TSGINN将HS编码分类问题定义为基于词共现网络的子图分类问题,通过图注意力网络建模非连续词之间的关联关系,同时利用分层的长短期记忆网络结合商品文本层次结构捕获多层次的序列信息.在真实海关商品数据集上进行了实验,结果表明TSGINN模型的HS编码分类效果优于其他分类方法.

关键词

海关商品/HS编码/文本分类/多层次序列信息/图注意力网络

引用本文复制引用

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
参考文献量20
段落导航相关论文