摘要
当今时代和社会发展异常迅猛,在当前的大数据背景下,政策研究作为一门社会科学,已经成为当下学术研究的热点领域,而知识图谱技术也已成为各专业的常用手段。政策具有文本长,条目复杂,发布频率高,语义多歧性等特点,随着政策数据量的增加和政策分析需求的多样化,现如今要求对政策进行更多更深入的分析。而传统的政策分析多采用效率低下的旧手段,分析的效率和深度都有限,在大数据时代的背景下,政策研究需要更新颖的方式方法。 在大数据和信息时代的背景下,本文为研究和分析政策文本,建立了一种基于知识图谱的政策文本研究和量化分析的框架,本研究将知识图谱这一手段运用到政策文本研究中,以广义的科技发展促进类政策为研究目标,把政策文本中大量非量化的、非结构化的信息最终转化为特定的三元组形式,建立了政策文本的研究分析框架和模型,最后进行政策的实证研究。在模型构建中,主要包括政策文本的实体抽取和关系抽取等部分,对政策文本内容的集合提供实体抽取、关系抽取等功能。在政策文本比较分析模型中,主要运用文本挖掘相关技术如基于词向量等方法对政策进行信息的抽取和对比。最后使用Neo4j图数据库实现了知识图谱的可视化,并用Cypher语句实现查询。 本文共由六个部分章节组成。第一章是绪论章节,介绍了本研究所选题目的背景及意义、研究内容与方法,并总结了论文研究过程中的的难点与创新点。第二章是对本研究相关内容所做的文献综述,介绍了国内外有关政策研究尤其是科技政策研究的相关内容,接下来介绍了知识图谱的相关理论,厘清在政策研究领域目前政策知识图谱应用的现状,并对国内外的政策知识图谱进行总结,并对前述内容进行了梳理总结。第三章为政策内容和结构的解析。第四章为对政策进行文本分析。按照第三章中的政策模型的需求,对政策内包含的实体和关系进行抽取,建立对应的模型。第五章为成果的验证。通过对政策数据的实体抽取和政策知识图谱的构建,对前文所提出的模型进行验证。第六章是总结与展望。该章节对本研究的研究内容进行了总结,并提出目前研究中所具有的问题和缺陷,并对后续研究提出了建议和展望。 本文通过对前人研究成果的梳理,针对政策分析、实体抽取等问题进行深度剖析与理解,并在此基础之上形成了自己关于这一领域的认识,尤其是针对于科技类政策文本语义方面,提出了较为独特的技术方法和体系。主要是采用实体抽取的方式对领域进行处理,然后构建关系,在这个过程之中,穿插着启发式规则的构建,最后采用对比分析的方法进行流程分析。这种方法不仅能够反复验证政策事实的判断情况,同时能够挖掘出隐藏的深层逻辑。