首页|基于深度学习的单步逆合成反应预测方法研究

基于深度学习的单步逆合成反应预测方法研究

李思徵

基于深度学习的单步逆合成反应预测方法研究

李思徵1
扫码查看

作者信息

  • 1. 兰州大学
  • 折叠

摘要

有机合成规划对药物研发具有重要意义,其中逆合成预测不仅能够降低药物的制造成本,而且能够有效解决一些天然药物分子生产途径单一和量产困难的问题。作为逆合成预测的基础,单步逆合成预测受前期技术水平的限制,一直很难有太大突破,尤其是基于规则和模板的预测方法,耗时费力且难以扩展。但是随着深度学习的发展以及化学反应数据的积累,单步逆合成反应预测任务被赋予了新的生机。本文围绕单步逆合成预测任务,做出以下研究: (1)为了克服基于规则和模板方法的局限性,解决现存的预测准确率低、输出无效分子率高的问题,本文提出了一个无模板的单步逆合成预测模型TransRetro,模型由词嵌入模块、相对位置编码模块、预测模块和修正模块组成,并引入优化的束搜索算法。实验结果验证了各部分对模型的积极作用,最终模型的Top-1预测准确率在通用数据集上达到了54.6%,预测分子有效率达到了97.8%。 (2)为了克服基于字符的数据分词方法在逆合成预测任务中缺乏严谨性的问题,本文通过分析反应数据,划分原子最小单元对数据进行处理,使得反应数据可保留一定的化学信息,让模型能够进一步学到其中的语法知识,提升预测性能;另外不同于该任务常使用的单一评价指标,本文使用多标准的评价方法对模型进行评估,使其评估更为全面。 (3)为了解决小规模化学反应数据集由于样本数量不足而导致的预测准确率低的问题,本文将迁移学习方法与TransRetro结合,提出单步逆合成预测迁移增强模型T-TransRetro,并设计了两种数据增强策略,分别为顺序增强和倍数增强策略。使用数据量大小为480K和50K的反应数据集进行实验,实验结果表明,该模型能够有效缓解数据量小对模型预测性能的消极影响,Top-1预测准确率达到了66.1%。

关键词

计算机辅助合成规划/单步逆合成反应预测方法/深度学习/束搜索/迁移学习

引用本文复制引用

授予学位

硕士

学科专业

电子科学与技术·电路与系统

导师

许存禄

学位年度

2022

学位授予单位

兰州大学

语种

中文

中图分类号

R9
段落导航相关论文