[目的]引入深度学习词嵌入表示技术,帮助更好地从医学领域科技报告中发现主题之间的隐含关联,从而为进一步丰富和完善医学领域主题演化分析方法提供参考.[方法]利用基于单词和主题进行联合学习的主题词嵌入表示模型TWE (Topical Word Embeddings),以肿瘤学领域科技报告为数据源,对主题之间的潜在语义关联信息进行计算并用于主题演化分析.[结果]实验结果表明,在词嵌入表示主题演化中,展现出2006年和2007的部分主题分裂关联关系,以及2011年和2012年的部分主题融合关联关系.而这些TWE分裂和融合关联结果在传统LDA主题演化中都没有完全体现出来.传统LDA演化和词嵌入表示主题演化的最大的不同体现在2009年和2010年中,两者得到的相关关系是完全不同的.[局限]一方面,受到中文领域科技报告数据采集的限制,样本量规模有限;另一方面,未针对其他医学领域研究主题对所提方法进行进一步验证.[结论]基于主题词嵌入表示模型的主题挖掘及演化分析,能较好突出深度学习语义表示对主题关联的重要作用,并可在医学领域文本特别是科技报告中提供更好的主题演化分析结果.
Topic Mining and Evolution Analysis of Medical Sci-Tech Reports with TWE Model