摘要
目的 基于文本挖掘与可视化技术探索与展现《易经》六十四卦的联系,为中医古籍挖掘提供新思路.方法 对《易经》原文进行分词、去停用词等预处理步骤,采用词频统计、Word2Vec词向量模型、词频-逆文件频率文档表示法与关键词抽取、层次聚类分析与相似性网络分析对《易经》文本进行挖掘.结果 基于词频统计结果发现,"无咎"在《易经》文本中出现频率最高;基于Word2Vec词向量表示与余弦相似度度量得到,吉和凶有0.734的相似性;层次聚类分析显示,字面含义类似的大过和小过聚在同一大类,互为综卦、字面含义相反的既济和未济聚在不同大类,而字面含义相反的损和益、大有和大过,与互为综卦的泰和否均被聚在同一大类;通过相似性网络分析得到,师和临、损和益、坎和困、噬嗑和萃等10个卦爻对有较强的文本相似性.结论 通过文本挖掘技术归纳《易经》的核心思想有无咎、居安思危、物极必反、损益原则,与中医的中庸之道、治未病、阴阳相互转化、损益配伍原则相关.该方法可扩展用于中医古籍的挖掘与可视化研究中.
基金项目
广东省大学生创新创业训练计划项目(S201910572084)