基于卷积神经网络的药物设计文献综述

 2022-12-02 08:12

一、课题背景

药物开发是一个漫长的过程,在研发的过程中不仅消耗大量的人力物力,也消耗大量的时间,并且需要测试成千上万的化合物来得到多个甚至一个的有效化合物。其过程中的主要挑战之一是预测蛋白质-配体的结合亲和力。倘若用传统实验的方式来获得这样的数据,难度是非常大的。近年来,机器学习方法在此任务上取得了实质性进展。越来越多的大型化学数据库可用于药物研发。因此,在使用深度神经网络应用于药物开发方面已经出现了新的尝试。若将机器学习应用到药物的研发,可以缩短药物研发的周期并且可以降低成本。机器学习的优势在于它能够学习输入特征与大规模数据输出决策之间的复杂关系卷积神经网络是一类包含卷积计算的且具有深度结构的前馈神经网络。卷积神经网络仿造生物的视知觉机制构建的,且具有表征学习能力,即能够从输入信息中提取高阶特征。根据查阅相关文献,基于网格的卷积神经网络可以在蛋白质-配体的结合亲和性方面表现出一定的性能。而且也可以用于预测蛋白质与配体的对接构象,从而选择出一个优势的结合构象。因此,卷积神经网络为药物的研发提供了十分有用的工具。

  1. 要解决的问题

对3D卷积神经网络的架构进行分析,寻找并处理适合用于训练模型的蛋白质-配体数据集。利用深度学习的方法,在Python语言的环境下,使用在Caffe深度学习框架下建立的模型,利用数据集中的蛋白质-配体的信息来对模型进行训练,从而来对蛋白质-配体的结合亲和力进行预测。通过这种方法来挖掘卷积神经网络在药物设计中的应用。

  1. 可行性分析

查阅了相关文献,从中了解到,许多研究人员和学者利用卷积神经网络在识别正确的配体构象方面表现出良好的性能。这些研究不仅使用了不同的模型,也使用了不同输入表示方式,例如,由蛋白质序列和配体的SMILE字符串组成的输入复合物和使用化学描述符通道的3D网格作为输入,而不是简单的原子识别,在亲和力预测方面取得很大的进步。利用基于图像的方法表征以及其他机器学习模型来预测蛋白质-配体结合亲和力也有了相当大的进步。这些研究的进步,使得卷积神经网络应用于药物设计的可行性大大增加。

  1. 研究方法和内容

所有模型均由一系列3D卷积和/或池化层组成,然后是两个单独的完全连接的层,其输出是构象得分和亲和力预测。构象选择(分类)经过逻辑损失训练,以区分低RMSD(lt;2Aring;)和高RMSD(gt; 2Aring;)构象。亲和力预测是使用类似L2的拟Huber损失进行训练的,该损失在评估高RMSD构象时会受到影响。所有模型均采用高斯样原子类型密度的3D网格作为输入,该网格是使用我们的libmolgrid CUDA加速库生成的分子网格生成的。有14种配体原子类型。和14种受体原子类型,包括氧/氮氢供体/受体和脂族/芳族碳的不同类型。使用尺寸为23.5和0.5Aring;分辨率的立方网格。

传统上,机器学习模型是使用预定义的“核心”集作为测试集,并将PDBbind的其余部分作为训练数据进行评估的。由于PDBbind由精选(精炼)集和扩展(通用)集组成,我们为训练和评估目的创建了PDBbind v2016的多个分区:Refined Core,General Core,聚类交叉验证(CCV)Refined和CCV General。如果配体分子量大于1000 Da或配体名称不明确,则将复合物丢弃。可以通过downloadLigandFiles服务器从PDB作为SDF直接下载每个受体和配体,以避免完整PDB文件中存在的键序和质子化状态含糊不清。受体有水,并且所有的原子都通过ProDy的Python软件包剥离了HETATM标签所标识。

通过将配体与smina对接到其同源受体中而产生了对接的构象。每个受体-配体对最多产生20个构象。构象对接在使用autobox选项和晶体配体定义的框中。否则,将使用默认设置。为了增加每个复合物在训练集中具有低RMSD构象的可能性,同时仍确保所有训练构象具有与对接构象相同的几何特性,在训练集中包括了能量最小的晶体配体。晶体配体使用RDKit中的UFF力场精制,这与生成用于对接的构象异构体时使用的力场相同,然后使用smina中实现的Vina打分函数将受体结构最小化正如对接构象。因此,使用PDBbind数据时有两种构象:晶体构象和生成的构象。在使用“晶体”数据集训练的模型中使用直接晶体构象,而在使用“对接”数据训练的模型中使用生成的构象(例如,对接的和最小化能量的晶体构象)。

使用Caffe深度学习框架与libmolgrid集成的自定义分支对模型进行了训练。为了评估模型的性能,同时考虑了接收器工作特性(ROC)曲线的曲线下面积(AUC)和“ Top1”百分比。AUC表示模型将RMSD低构象与高RMSD构象整体分离的程度如何,并提供了目标间排名能力的度量,而Top1是排名最高的构象中低RMSD(lt;2Aring;)构象的百分比。

  1. 工作计划

2月28日—3月20日:完成文献查阅、开题报告等前期工作。

3月21日—5月10日:完成程序运行、处理数据等工作。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。