地球信息科学学报2024,Vol.26Issue(2) :477-487.DOI:10.12082/dqxxkx.2024.230570

网络游记文本中旅游行程链提取方法

A Method of Itinerary Chain Extraction from Online Travel Notes

阮陵 葛军莲 张翎 王黎淑 王晓宣
地球信息科学学报2024,Vol.26Issue(2) :477-487.DOI:10.12082/dqxxkx.2024.230570

网络游记文本中旅游行程链提取方法

A Method of Itinerary Chain Extraction from Online Travel Notes

阮陵 1葛军莲 2张翎 2王黎淑 3王晓宣3
扫码查看

作者信息

  • 1. 安徽师范大学地理与旅游学院,芜湖340200;滁州学院实景地理环境安徽省重点实验室,滁州239000
  • 2. 南京师范大学地理科学学院,南京210023
  • 3. 安徽师范大学地理与旅游学院,芜湖340200
  • 折叠

摘要

网络游记是旅游者在互联网上发布的自述性旅游过程记录,描述了旅游的前后过程和感受体验.从网络游记文本中提取旅游行程链,分析行程结构,能给游客的行程制定、线路设计提供重要的参考.传统的游记文本行程提取大多依赖于人工识别文本中的行程节点,再进行串联、合并处理,工作量较大.自动提取游记文本中的旅游行程链,能够提高数据处理和分析效率.本文基于自然语言处理技术,在深入分析游记网络文本的段落结构和表达特点的基础上,归纳了行程节点和节点次序关系的句法表达规则,构建了行程节点触发词表,进而提出了基于句法规则的旅游行程链提取方法,主要包含行程节点的识别、节点次序关系的识别和旅游行程链的生成,能实现网络游记文本的旅游行程重构.本文采集了蚂蜂窝平台17226篇南京市网络游记文本数据,采用最长公共子序列算法,开展了本文方法的试验验证.通过对比分析,本文方法提取的旅游行程链和人工识别的真实行程链相似度达到86.14%,高于实体关系抽取领域的BERT-BiLSTM-CasRel深度学习模型的83.1%.相比现有关系提取类深度学习方法需要开展大量的数据标注,本文方法计算更加便捷,准确率相对较高,仅需构建区域旅游点名录,即可实现网络游记文本中行程信息的自动提取.

关键词

网络游记/网络文本/旅游行程链/行程重构/行程提取/节点识别/规则匹配

Key words

online travel notes/web text/travel itinerary chain/itinerary reconstruction/itinerary extraction/node identification/rule matching

引用本文复制引用

基金项目

国家自然科学基金(42301258)

国家自然科学基金(42171403)

出版年

2024
地球信息科学学报
中国科学院地理科学与资源研究所

地球信息科学学报

CSTPCDCSCD北大核心
影响因子:1.004
ISSN:1560-8999
参考文献量30
段落导航相关论文