计算机技术与发展2024,Vol.34Issue(3) :155-162.DOI:10.3969/j.issn.1673-629X.2024.03.023

基于原子特性知识增强的分子毒性预测方法

A Molecular Toxicity Prediction Method Based on Knowledge Enhancement of Atomic Properties

方舒言 刘宇 侯阿龙 秦欢欢 刘嵩
计算机技术与发展2024,Vol.34Issue(3) :155-162.DOI:10.3969/j.issn.1673-629X.2024.03.023

基于原子特性知识增强的分子毒性预测方法

A Molecular Toxicity Prediction Method Based on Knowledge Enhancement of Atomic Properties

方舒言 1刘宇 2侯阿龙 1秦欢欢 3刘嵩4
扫码查看

作者信息

  • 1. 武汉科技大学 计算机科学与技术学院,湖北 武汉 430072
  • 2. 武汉科技大学 计算机科学与技术学院,湖北 武汉 430072;湖北省智能信息处理与实时工业系统重点实验室,湖北 武汉 430072
  • 3. 武汉科技大学 医学院,湖北 武汉 430072
  • 4. 武汉科技大学 医学院,湖北 武汉 430072;湖北省职业危害识别与控制湖北省重点实验室,湖北 武汉 430072
  • 折叠

摘要

当前基于深度学习的化学分子毒性预测方法主要利用了分子的字符串表示,但现有的字符串表示模型忽视了分子中不同原子的特性知识,从而导致学习模型未能充分利用领域知识.针对上述问题,提出了显式引入氢原子及利用摩根指纹半径增强原子特性知识的方法,使得毒性预测模型能够学习到化学分子中原子的特性知识.在改进的毒性预测模型中,用氢原子及原子特性知识增强的分子摩根指纹标识符序列作为输入,并在嵌入层额外引入了分子摩根指纹的半径特征.为了验证方法的有效性,对预训练后的模型在主流的毒性预测数据集Tox21 上进行了微调和测试.实验结果表明,相比于现有的基于分子序列的化学分子毒性预测方法,改进的方法在多个通道上取得了最佳的AUC分数.

Abstract

Current deep learning-based methods for toxicity prediction of chemical molecules mainly utilize the string representation of molecules,but the existing string representation models ignore the knowledge of the properties of different atoms in molecules,which leads to the failure of learning models fully utilizing the domain knowledge.To address these problems,a method that explicitly introduces hydrogen atoms and enhances the knowledge of atomic properties using the Morgan fingerprint radius is proposed to enable the toxicity prediction model to learn the knowledge of the properties of atoms in chemical molecules.In the improved toxicity prediction model,a sequence of molecular Morgan fingerprint identifiers enhanced with hydrogen atoms and atomic property knowledge is used as input,and the radius feature of molecular Morgan fingerprint is additionally introduced in the embedding layer.To validate the effectiveness of the proposed method,the pre-trained model was fine-tuned and tested on the mainstream toxicity prediction dataset Tox21.The experimental results showed that the improved method achieved the best AUC scores on multiple channels compared with the existing molecular sequence-based chemical molecule toxicity prediction methods.

关键词

分子毒性预测/自监督学习/知识增强/药物发现/摩根指纹

Key words

molecular toxicity prediction/self-supervised learning/knowledge enhancement/drug discovery/Morgan fingerprint

引用本文复制引用

基金项目

国家自然科学基金资助项目(U1836118)

国家自然科学基金资助项目(62261023)

湖北省职业危害识别与控制湖北省重点实验室开放项目(OHIC2019G06)

出版年

2024
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量20
段落导航相关论文