首页|网络游记文本中旅游行程链提取方法

网络游记文本中旅游行程链提取方法

扫码查看
网络游记是旅游者在互联网上发布的自述性旅游过程记录,描述了旅游的前后过程和感受体验.从网络游记文本中提取旅游行程链,分析行程结构,能给游客的行程制定、线路设计提供重要的参考.传统的游记文本行程提取大多依赖于人工识别文本中的行程节点,再进行串联、合并处理,工作量较大.自动提取游记文本中的旅游行程链,能够提高数据处理和分析效率.本文基于自然语言处理技术,在深入分析游记网络文本的段落结构和表达特点的基础上,归纳了行程节点和节点次序关系的句法表达规则,构建了行程节点触发词表,进而提出了基于句法规则的旅游行程链提取方法,主要包含行程节点的识别、节点次序关系的识别和旅游行程链的生成,能实现网络游记文本的旅游行程重构.本文采集了蚂蜂窝平台17226篇南京市网络游记文本数据,采用最长公共子序列算法,开展了本文方法的试验验证.通过对比分析,本文方法提取的旅游行程链和人工识别的真实行程链相似度达到86.14%,高于实体关系抽取领域的BERT-BiLSTM-CasRel深度学习模型的83.1%.相比现有关系提取类深度学习方法需要开展大量的数据标注,本文方法计算更加便捷,准确率相对较高,仅需构建区域旅游点名录,即可实现网络游记文本中行程信息的自动提取.
A Method of Itinerary Chain Extraction from Online Travel Notes

online travel notesweb texttravel itinerary chainitinerary reconstructionitinerary extractionnode identificationrule matching

阮陵、葛军莲、张翎、王黎淑、王晓宣

展开 >

安徽师范大学地理与旅游学院,芜湖340200

滁州学院实景地理环境安徽省重点实验室,滁州239000

南京师范大学地理科学学院,南京210023

网络游记 网络文本 旅游行程链 行程重构 行程提取 节点识别 规则匹配

国家自然科学基金国家自然科学基金

4230125842171403

2024

地球信息科学学报
中国科学院地理科学与资源研究所

地球信息科学学报

CSTPCD北大核心
影响因子:1.004
ISSN:1560-8999
年,卷(期):2024.26(2)
  • 30