摘要
网络游记文本是获取旅游者行程、经历和体验等旅游知识的重要来源,文本中所记叙的内容不仅反映了游客对于某些旅游目的地或主题项目的感受与观点,还反映了相对应的旅游过程。通过对网络游记文本的挖掘研究,可以了解游客热衷的游览路线、行为活动等,为相关需求用户提供宝贵的旅游知识和见解,还可辅助旅游企事业机构进行经营管理决策。因此,如何有效利用海量的网络游记文本,并将它们转化为有价值的信息、知识,成为旅游信息研究领域重要的关注点。 近年来,随着信息技术的不断发展,从网络游记文本中获取旅游知识的研究越来越丰富,内容集中在对网络游记文本进行实体信息与关联挖掘、情感分析等方法上,目的在于获知旅行者的兴趣和需求、预测旅游偏好等。因为旅游过程是由旅途中的事件相互作用而填充,所以这一类信息蕴含了丰富的事理逻辑。对事理逻辑的发现与表达可以帮助人们厘清事件发生经过、揭示事件发展规律,获知更多旅游具体细节信息。事理图谱作为一类特定的以事理为核心的知识图谱,主要研究范围为事件、行为演化的规律和模式,这种探索事件之间逻辑关系的研究理论与方法,能够实现人们对网络游记文本中旅游过程这一动态性事理知识的挖掘与呈现。事理图谱在知识发现、知识表示、知识推理等方面发挥着重要作用,它不仅内能够提供一种事理知识表达和理解方式,还能为用户决策支持提供基础数据。 知识融合是在大数据环境下实现网络游记文本科学利用、最大化地挖掘事理知识价值的有效方法。其通过整合、完善和丰富知识,提高知识的完整性和准确性,目标是优化隐性的或有价值的新知识来解决决策问题。利用知识融合的思想、方法和技术可以对网络中繁复、分散、多源游记文本事理知识进行实时地、智能地汇集与细粒度加工处理,最终构建规范、统一的网络游记文本事理图谱,能够达到知识精炼、新知识或新的解决方案获取的目的。同时再针对具体问题的客观环境、外部条件等因素而展开分析,去发现特定事件的一般规律,不仅有助于完整地揭示事件本质和发展规律,还能有效辅助用户对事件后期发展的预判。 鉴于此,本文以网络游记文本为研究对象,分别从网络游记文本事理的知识表示、抽取、融合方法和推理应用三个方面展开基于事理图谱的网络游记文本知识融合研究。综合运用文献分析、事理图谱法、文本聚类法、语义相似度法、实证研究法等研究方法,在结合网络游记文本事理特征、知识融合目标和原则的基础上设计了知识融合流程,并架构基于事理图谱的网络游记文本知识融合逻辑框架。本研究则根据该框架逐层解构,环环相扣地进行网络游记文本事理体系构建、事理图谱融合和事理图谱推理应用的探讨。具体内容如下: 第 3 章基于事理图谱的网络游记文本知识融合逻辑框架构建。首先,分析了网络游记文本事理的价值、特征与融合的必要性,确定了基于事理图谱的网络游记文本知识融合的目标和原则,明确了知识融合的流程,为基于事理图谱的网络游记文本知识融合逻辑框架构建提供依据。最后,对基于事理图谱的网络游记文本知识融合逻辑框架层次之间的关系,以及各层次所涉及的功能要素进行了详细解析。 第 4 章网络游记文本事理表示。首先,对事理图谱中的知识表示方法进行概述,提出了基于本体的网络游记文本事理结构化表示方法。然后,参照现有知识表示模型的基础上,提出网络游记文本事理本体模型构想,建模过程主要包括确定义类、关系及属性,从而实现了网络游记文本事理结构化统一表示。最后,对本研究所构建的网络游记文本事理表示本体模型予以可视化展示。 第 5 章网络游记文本事理抽取。首先,采用网页采集器和自然语言处理工具等方式构建网络游记文本语料库,选取国内各大旅游网站平台中“康养旅游”相关游记作为实验数据源进行实证研究。其次,抽取语料库中的目的地、主题、事件对类等事理要素实例。同时,通过实验对抽取方法进行有效性验证。最后,采用基于本体的实例关联完成网络游记文本事理图谱构建。 第 6 章基于事理图谱的网络游记文本知识融合实现。首先,阐释了基于事理图谱的网络游记文本本体和实例两个层面知识融合的实现模式。接着,以此为指导设计知识融合的实现路径。最后,介绍采用基于语义相似度比较技术和基于聚类图排序技术的知识融合算法。本章还通过实验进行知识融合实现的实证研究。 第 7 章基于事理图谱的网络游记文本知识融合应用。借助 Neo4j 技术实现网络游记文本知识融合实现结果存储、查询与推理应用。本章还以“康养旅游”网络游记文本事理图谱为例进行应用实证研究。通过图计算发现游客行为偏好及特征;利用路径搜索分析揭示“康养旅游”的潜在模式,有助于对旅游偏好发展趋势的分析与预测,在此基础上设计和制定“康养旅游”的热门行程方案。 本研究在大数据环境下探讨基于事理图谱的网络游记文本知识融合相关问题,借助计算机学、管理学、情报学和知识科学等多元学科理论,架构基于事理图谱的网络游记文本知识融合逻辑框架及应用模式,为网络旅游信息资源研究提供了新视角。不仅丰富了知识融合研究理论,而且推进了旅游信息领域的实践创新,为相关领域学者深度开发网络文本信息资源提供参考。