整个已知宇宙充满了无限多的分子。但是,这些分子中哪一部分具有潜在的类药物特征,可以用于开发救生药物治疗?数以百万计的?数十亿?万亿?答案是:11亿或1060。这个庞大的数字延长了快速传播疾病(如2019冠状病毒疾病)的药物开发过程,因为它远远超出了现有药物设计模型所能计算的范围中国机械网okmao.com。从长远来看,银河系大约有10亿颗恒星,即108颗。
在一篇将在国际机器学习会议(ICML)上发表的论文中,麻省理工学院的研究人员开发了一种称为EquiBind的几何深度学习模型,该模型在成功将类药物分子与蛋白质结合方面比现有最快的计算分子对接模型QuickVina2-W快1200倍。EquiBind以其前身EquiDock为基础,EquiDock专门使用后期屋大维Eugen Ganea开发的技术结合两种蛋白质,最近的麻省理工学院计算机科学和人工智能实验室和Abdul Latif Jameel Clinic for Machine Learning in Health(Jameel Clinic)博士后共同撰写了EquiBind论文。
在药物开发之前,药物研究人员必须找到有前途的类药物分子,这些分子可以在药物发现过程中与某些蛋白质靶点正确结合或“对接”。在成功对接到蛋白质后,结合药物(也称为配体)可以阻止蛋白质发挥功能。如果这种情况发生在细菌的一种必需蛋白质上,它可以杀死细菌,从而保护人体。
然而,药物发现过程可能在财务和计算上都很昂贵,在食品和药物管理局最终批准之前,需要投入数十亿美元,并经过十多年的开发和测试。更重要的是,90%的药物一旦在人体上测试就失败了,因为它们没有任何作用或有太多的副作用。制药公司弥补这些失败成本的方法之一是提高成功药物的价格。目前寻找有希望的药物候选分子的计算过程是这样的:大多数最先进的计算模型依赖于重候选采样,以及评分、排序和微调等方法,以获得配体和蛋白质之间的最佳“匹配”。
汉内斯街盲rk是麻省理工学院电气工程和计算机科学系的一年级研究生,也是这篇论文的主要作者,他将典型的配体与蛋白质结合方法比作“试图将钥匙塞进有很多锁孔的锁中”典型的模型在选择最佳模型之前会花费大量时间对每个“适合”进行评分。相反,EquiBind在一个步骤中直接预测精确的关键位置,而无需事先了解蛋白质的目标口袋,这被称为“盲对接”与大多数需要多次尝试寻找配体在蛋白质中有利位置的模型不同,EquiBind已经具有内置的几何推理,可以帮助模型学习分子的基本物理,并在遇到新的、看不见的数据时成功地进行概括,以做出更好的预测。
这些发现的发布很快引起了行业专业人士的注意,包括接力疗法首席数据官帕特·沃尔特斯。Walters建议团队在一种已经存在的用于肺癌、白血病和胃肠道肿瘤的药物和蛋白质上尝试他们的模型。虽然大多数传统的对接方法无法成功地结合作用于这些蛋白质的配体,但EquiBind成功了。Walters说:“EquiBind为对接问题提供了一种独特的解决方案,它结合了位姿预测和结合位点识别。”。“这种方法利用了数千种公开可用的晶体结构的信息,有可能以新的方式影响该领域。”
虽然EquiBind收到了行业专业人士的大量反馈,帮助团队考虑计算模型的实际用途,但St盲rk希望在7月即将举行的ICML上找到不同的观点。“我最期待的反馈是关于如何进一步改进模型的建议,”他说。“我想和那些研究人员讨论一下鈥?告诉他们我认为下一步可以做什么,并鼓励他们继续前进,将该模型用于他们自己的论文和方法鈥?我们已经有很多研究人员伸出手来询问我们是否认为该模型对他们的问题有用。"