文/汪小我,张梓婷
摘 要:长久以来,制药行业面临着高成本、长周期、高失败率等痛点问题,人工智能技术的快速发展为突破创新药的研发困境带来了希望。首先梳理了 AI制药的发展历程与底层驱动因素,随后展望了其未来发展趋势。
关键词:AI制药;人工智能;靶点发现;虚拟筛选;分子设计
1 AI制药发展历程与现状
1.1. 起源
回顾AI制药的发展历程,并没有公认的起始节点,但借助计算的力量辅助药物设计,最早可以追溯到上世纪60年代。为了加快传统实验筛选的效率,药物化学家们开始以统计、物理、化学等门学科为基础,通过模拟与计算,分析药物与靶点蛋白之间的构效关系,指导药物分子的设计与优化。1981年,一篇名为《下一次工业革命 , 在默克公司用计算机设计药物》的文章登上了《财富》杂志的封面,宣告着计算机在未来药物研发中的巨大潜力 。
此后的很长一段时间,虽然各类计算辅助的理性设计方法给传统制药业带来了一定程度的效率提升,却不足以引发当年人们所期望的颠覆性变革。2004年的Nature Reviews Drug Discovery期刊中指出(Rawlins,2004),在过去30年中,药物开发的成本显著上升,全球仍有大量未满足的临床需求。尽管遗传学与分子生物学等学科的进步与高通量技术、生物信息学等项技术的发展给新疗法带来了希望,但如果不改变新药研发范式,这些希望也将无从谈起。
药物发现本质上是一个复杂的维、步骤的搜索与优化问(Jayatunga,et al,2022),以小分子药物为例,据化学家估计,可成药的化合物空间大约在1060(Mullard,2017),超越了太阳系原子的数量。人工智能在理论上赋予了“穷尽”庞大可成药空间的可能,且相较于传统的计算方法,能够应用到更广泛的场景。2000年前后,人们逐渐将神经网络、SVM和决策树等机器学习方法应用于新药研发。但由于问题的复杂度与巨大的样本空间,表征能力有限的各类简单模型极大程度地限制了人工智能发挥。
1.2 发展
历经年的发展,人工智能技术在制药领域的 渗透日趋紧密与成熟,在包含靶点发现、虚拟筛选、分子优化和逆合成路线设计等个环节已经实现了广泛应用(见图 1),并取得了重大突破。
2012年,前辉瑞科学家霍普金斯团队(Besnard,et al,2012)在Nature上发表文章,提出了针对靶点复杂药物配体的自动化设计流程为复杂疾病的药物设计提供了强大的新方法。
2018年,Waller教授在Nature发表文章Planning Chemical Syntheses with Deep Neural Networks and Symbolic AI,将深度学习用于化学分子逆合成路线分析,相比传统的搜索算法快了数十倍,效果与文献中实验报道的路线相当。这项研究也被誉为化学界的AlphaGO。
2019年,Insilico Medicine公司在Nature Biotechnology上发表了具有里程碑意义的一项工作(Zhavoronkov,et al,2019),基于深度生成模型与强化学习实现了DDR1激酶抑制剂小分子药物的设计,仅用21天就实现了潜在强效候选分子发现。
2020年,DeepMind团队的AlphaFold2 在CASP14蛋白质结构预测比赛中夺冠(Jumper, et al,2021),突破了困扰蛋白质领域长达50年之久的折叠难题,被评为2021年Science十大科学突破之首。
2022年,David Baker团队在Science连发两篇文章(Dauparas,et al,2022;Wicky,et al,2022),提出了从头设计蛋白质序列的原型方法,为未来大分子药物的研发提供了新的可能。
1.3 概念验证与现状
2020年以来,人工智能技术在制药领域的价值逐渐得到验证,陆续有药物进入临床试验阶段,但尚无人工智能设计出的药物上市。头部AI制药公司Exscientia的公开资料显示,自研的技术平台可将从靶点到候选药物的发现时间缩短70%(行业平均 54个月),研发投入降低 80%(行业平均6300万美元)。
2022年,波士顿咨询团队在Nature Reviews Drug Discovery期刊发表了名为AI in Small-Molecule Drug Discovery:a Coming Wave的文 章(Jayatunga, et al,2022),指出人工智能在药物发现环节中价值创造的几个潜在基本逻辑,并基于公开数据展开了全面分析。尽管在成本、临床试验成功率等维度的指标还有待观察,但已有的数据表明,个人工智能辅助的药物研发项目在4年之内就完成了药物发现和临床前研究过程,而业界这一历史数据在5 ~ 6年,提供了人工智能能够较显著地提升药物研发效率的初步证 明。
2 AI制药发展底层驱动力分析
不同于诸领域内,学术突破带来随后产业变革的发展模式,AI 制药的突出特点之一是学术研究与产业应用的强协同性。一方面,人工智能在药物发现领域取得的成就,离不开AI For Science学术界的高速发展;另一方面,AI For Science的学术进步,其背后从问题提出、数据积累、算法革新到模型验证等因素,都离不开产业界的力量。下面就AI制药发展的底层驱动力问题,展开详细论述。
2.1 问题和需求
周期长、投入高和成功率低是新药研发的三大痛点问题。据JAMA统计,2009—2018年,将新药推向市场的资本化研发投入中位数约为11.42美元(Wouters, et al,2020)。更糟糕的是,由于“低垂的果实”逐渐耗尽,即使技术在不断发展,新药研发的效率不增反降,医药研发领域存在着一条著名的“反摩尔定律”——大约每9年药物研发的成本会翻倍 。
因此,围绕着制药流程的各个环节,药企端涌现出了一系列亟待计算突破的问题:如何从组学数据或者文献中找出疾病的有效靶点?如何针对某一个靶点,快速从巨大化学空间中虚拟筛选出有活性的可成药分子?对于一些难成药靶点,能否生成全新骨架的药物分子?对于找到的候选分子,如何对特定性质进一步优化,又如何设计合成路线……?真实世界未满足的临床需求,药企对新技术的拥抱态度,为AI制药研究发展提供了直接而强大的助推力。
2.2 数据积累
人工智能模型的训练离不开数据,这一点在深度学习领域尤为关键。以AI制药领域近年进展最大的小分子虚拟筛选/生成与蛋白质结构预测两类任务为例,它们的突破也都离不开近10年来生物领域大规模实验数据集的支撑。
ChEMBL数据库(Gaulton, et al, 2012)是欧洲生物信息研究所开发的大型药物发现数据库,包含了大量药物分子与靶点的结合、功能和药代动力学性质等信息。在行业专 家与资本的推动下,ChEMBL数据库于2010年启动,目前已经更新到第31版,包含了超过233万个不同的化合物和1.5万个靶点 , 极大程度促进了各类人工智能算法的发展。
AlphaFold2的训练数据来自蛋白质序列数据库 UniProt(The UniProt Consortium,et al,2015)和蛋白质结构数据库Protein Data Bank(PDB)(Sussman, et al,1998)。其中,PDB是一个专门收录实验测得的蛋白质三维结构的公开数据集。过去的几十年里,PDB收录的结构 以接近指数的速度增长,从1982年的100个,1993年的1000 个,增长至1999年的1万个,再到2014年超过10万个(Berman, et al,2016),为人工智能在蛋白质结构预测领域的突破奠定了坚实的基础。
2.3 算法突破
如前文所述,2012年之后,人工智能领域兴起了深度学习的浪潮,许源于计算机视觉、自然语言处理和社交网络等领域的算法,都可以迁移至制药领域的各类问题,相较于传统机器学习方法取得性能上的飞跃。以药物研发流程中的虚拟筛选为例,它本质上是一个回归任务,即给定蛋白靶点与小分子信息,要求模型预测二者的结合亲和力。图2示出了虚拟筛选任务常见的网络结构 。
药物分子与靶点蛋白的结合是一个非常精巧的过程,一个官能团的微小改变就可能导致亲和力呈现出数量级的变化。因此,建立预测模型的关键难点在于,如何针对小分子和蛋白数据特点,构建机器学习模型,有效提取特征,捕捉小分子与蛋白之间的相互作用关系,从而实现亲和力的精准预测 。
DeepDTA(Öztürk,et al,2018)是 最 早 一 批 基于深度学习,依靠蛋白序列预测蛋白 - 靶点亲和力的工作,创新性地使用了卷积神经网络对蛋白质和化合物的一维序列进行特征提取,取得了相对较优的性能。但这样的方法存在着局限性,卷积神经网络在提取局部特征时,往往会忽视远程的相互作用。在之后的工作中,如何更好地表征分子与蛋白的特征,成为亲和力预测任务中大家关注的焦点,以下简单列举几条。
DeepCPI(Wan,et al,2019)将分子与蛋白视 作一种特殊的自然语言,基于无监督表示学习 , 从大量数据中学习分子与蛋白特征的表示。GraphDTA(Nguyen,et al,2021)指出将化合物表示为字符串的一维形式,将导致分子结构信息的丢失。通过将化合物分子建模为图的数据结构,开发了对应的图神 经 网 络 算 法。TransformerCPI(Chen,et al,2020)将Transformer架构引入对序列的特征提取,同时,通过分析注意力权重,能够有效打开神经网络黑盒,为模型提供可解释性。
值得一提的是,深度生成网络等技术近年来的 快速发展,使分子生成成为了继虚拟筛选后新的研究热点,对它的研究有望突破现有化合物库的限制,生成全新骨架的可成药分子,但对它的详细讨论不在本篇综述的范围内。
简而言之,AI For Science逐渐成为了人工智能 领域的重要分支,开始产生深远的影响。一个新的趋 势是学科间的深度交叉与融合,例如AlphaFold2的研究团队就是一个跨学科的团队,其发表在Nature的论文有19位共同一作(Jumper,et al,2021),包括物理、化学、生物、计算机等个研究领域。
由上述的分析可以看出,AI制药在近十年来的爆发绝非单方面因素,而是集齐了“天时、地利与人和”的系统性突破。希望对这个问题的讨论,能够让读者对AI制药浪潮出现的时机、发展历程的特征与未来趋势有更深的理解,或引发新的思考。
3 AI制药发展趋势
这里就 AI 制药未来的发展趋势问题,展开详细论述。
3.1 应用角度
3.1.1药物形式元化
从药物形式的角度来看,受限于产业与技术的成熟度,当前人工智能在药物研发领域的应用主要集中在小分子领域。然而,随着技术的不断改进,临床试验的开展,种新型疗法的安全性和有效性在近几年得到了极大程度的提升与验证。未来,人工智能技术的应用将从小分子进一步拓展到PROTAC(Zheng,et al,2022)、大分子蛋白药物(Shan,et al,2022)、mRNA疫苗(Sample,et al,2019)、基因治疗(Wang,et al,2020;Bryant,et al,2021)、肿瘤免疫(Lu,et al,2021)等领域(见图3)。例如基于深度学习的方法,能够设计高度样化的腺相关病毒的衣壳蛋白变体,有望提高基因治疗的疗效(Bryant,et al,2021)。
3.1.2药物研发全流程赋能
从覆盖药物研发流程的角度来看,由于生物系统的高复杂度与患者间巨大的个体差异,目前人工智能在药物研发领域的应用主要集中在临床前研究中的靶点发现、分子设计与优化等环节。然而据统计,一款药物在进入临床试验后,因为缺乏临床疗效、不良 反 应 等 原 因 的 失 败 率 高 达 90%,带来的金额损失高达到8亿至14亿美 元(Sun,et al,2022;Harrer,et al,2019)。未来,基于人工智能的方法有效提升临床试验环节的成功率将是一个重要课题。
3.2技术角度
3.2.1干湿闭环
大规模的公开数据集是模型训练的前提,干湿闭环则是对于人工智能在制药领域发挥价值的关键和重要发展趋势。所谓干湿闭环,一方面是基于湿实验高通量测试的结果,返回迭代模型,迅速提升模型在特定问题下的性能;另一方面,使用改进后的模型与主动学习等策略指导进一步实验,最大程度地加速药物发现,由此形成正向循环 。
3.2.2可解释性
相比传统方法,深度学习模型带来的性能提升在一定程度上牺牲了可解释性,制约了不同学科专家之间的交流合作,同时在药物研发领域将导致潜在的可信度与安全性等隐患。为深度学习开发新的可解释方法将成为未来的关键研究领域,有助于我们理解模型决策的依据、更好地评估模型的决策质量(Jim'enez-Luna,et al,2020) 。
3.2.3数据与知识融合
本世纪10年代后高速增长的生物数据成就了人工智能在制药领域的第一代浪潮,但受到实验技术限制,生物学的很问题并不存在大规模的数据,仅依靠数据驱动的建模方法也限制了深度学习的进一步应用。如何将复杂生物学系统的知识作为先验引入模型,是未来该领域的重点研究方向之一。
4 结束语
不可否认的是,AI制药仍处于非常早期的发展阶段,但其带来的影响已经深刻变革了传统制药领域,展现出积极的发展趋势。但同时,AI制药也面临着诸技术挑战和局限性,过度神化人工智能在新药研发中的作用亦是不可取的。道阻且长,行则将至,与疾病的斗争贯穿着人类社会的发展,想要赢得这一场战争的胜利,需要整个社会的共同持续努力。
(参考文献略)
选自《中国人工智能学会通讯》
2022年第12卷第11期
人工智能与生命科学专题