AI 研习丨AI 制药的思考与展望
创始人
2024-11-28 19:52:54
0

文/汪小我,张梓婷

摘 要长久以来,制药行业面临着高成本、长周期、高失败率等痛点问题,人工智能技术的快速发展为突破创新药的研发困境带来了希望。首先梳理了 AI制药的发展历程与底层驱动因素,随后展望了其未来发展趋势。

关键词:AI制药;人工智能;靶点发现;虚拟筛选;分子设计

1 AI制药发展历程与现状

1.1. 起源

回顾AI制药的发展历程,并没有公认的起始节点,但借助计算的力量辅助药物设计,最早可以追溯到上世纪60年代。为了加快传统实验筛选的效率,药物化学家们开始以统计、物理、化学等门学科为基础,通过模拟与计算,分析药物与靶点蛋白之间的构效关系,指导药物分子的设计与优化。1981年,一篇名为《下一次工业革命 , 在默克公司用计算机设计药物》的文章登上了《财富》杂志的封面,宣告着计算机在未来药物研发中的巨大潜力

此后的很长一段时间,虽然各类计算辅助的理性设计方法给传统制药业带来了一定程度的效率提升,却不足以引发当年人们所期望的颠覆性变革。2004年的Nature Reviews Drug Discovery期刊中指出(Rawlins,2004),在过去30年中,药物开发的成本显著上升,全球仍有大量未满足的临床需求。尽管遗传学与分子生物学等学科的进步与高通量技术、生物信息学等项技术的发展给新疗法带来了希望,但如果不改变新药研发范式,这些希望也将无从谈起。

药物发现本质上是一个复杂的维、步骤的搜索与优化问(Jayatunga,et al,2022),以小分子药物为例,据化学家估计,可成药的化合物空间大约在1060(Mullard,2017),超越了太阳系原子的数量。人工智能在理论上赋予了“穷尽”庞大可成药空间的可能,且相较于传统的计算方法,能够应用到更广泛的场景。2000年前后,人们逐渐将神经网络、SVM和决策树等机器学习方法应用于新药研发。但由于问题的复杂度与巨大的样本空间,表征能力有限的各类简单模型极大程度地限制了人工智能发挥。

1.2 发展

历经年的发展,人工智能技术在制药领域的 渗透日趋紧密与成熟,在包含靶点发现、虚拟筛选、分子优化和逆合成路线设计等个环节已经实现了广泛应用(见图 1),并取得了重大突破。

2012年,前辉瑞科学家霍普金斯团队(Besnard,et al,2012)在Nature上发表文章,提出了针对靶点复杂药物配体的自动化设计流程为复杂疾病的药物设计提供了强大的新方法。

2018年,Waller教授在Nature发表文章Planning Chemical Syntheses with Deep Neural Networks and Symbolic AI,将深度学习用于化学分子逆合成路线分析,相比传统的搜索算法快了数十倍,效果与文献中实验报道的路线相当。这项研究也被誉为化学界的AlphaGO。

2019年,Insilico Medicine公司在Nature Biotechnology上发表了具有里程碑意义的一项工作(Zhavoronkov,et al,2019),基于深度生成模型与强化学习实现了DDR1激酶抑制剂小分子药物的设计,仅用21天就实现了潜在强效候选分子发现。

2020年,DeepMind团队的AlphaFold2 在CASP14蛋白质结构预测比赛中夺冠(Jumper, et al,2021),突破了困扰蛋白质领域长达50年之久的折叠难题,被评为2021年Science十大科学突破之首。

2022年,David Baker团队在Science连发两篇文章(Dauparas,et al,2022;Wicky,et al,2022),提出了从头设计蛋白质序列的原型方法,为未来大分子药物的研发提供了新的可能。

1.3 概念验证与现状

2020年以来,人工智能技术在制药领域的价值逐渐得到验证,陆续有药物进入临床试验阶段,但尚无人工智能设计出的药物上市。头部AI制药公司Exscientia的公开资料显示,自研的技术平台可将从靶点到候选药物的发现时间缩短70%(行业平均 54个月),研发投入降低 80%(行业平均6300万美元)。

2022年,波士顿咨询团队在Nature Reviews Drug Discovery期刊发表了名为AI in Small-Molecule Drug Discovery:a Coming Wave的文 章(Jayatunga, et al,2022),指出人工智能在药物发现环节中价值创造的几个潜在基本逻辑,并基于公开数据展开了全面分析。尽管在成本、临床试验成功率等维度的指标还有待观察,但已有的数据表明,个人工智能辅助的药物研发项目在4年之内就完成了药物发现和临床前研究过程,而业界这一历史数据在5 ~ 6年,提供了人工智能能够较显著地提升药物研发效率的初步证 明。

2 AI制药发展底层驱动力分析

不同于诸领域内,学术突破带来随后产业变革的发展模式,AI 制药的突出特点之一是学术研究与产业应用的强协同性。一方面,人工智能在药物发现领域取得的成就,离不开AI For Science学术界的高速发展;另一方面,AI For Science的学术进步,其背后从问题提出、数据积累、算法革新到模型验证等因素,都离不开产业界的力量。下面就AI制药发展的底层驱动力问题,展开详细论述。

2.1 问题和需求

周期长、投入高和成功率低是新药研发的三大痛点问题。据JAMA统计,2009—2018年,将新药推向市场的资本化研发投入中位数约为11.42美元(Wouters, et al,2020)。更糟糕的是,由于“低垂的果实”逐渐耗尽,即使技术在不断发展,新药研发的效率不增反降,医药研发领域存在着一条著名的“反摩尔定律”——大约每9年药物研发的成本会翻倍

因此,围绕着制药流程的各个环节,药企端涌现出了一系列亟待计算突破的问题:如何从组学数据或者文献中找出疾病的有效靶点?如何针对某一个靶点,快速从巨大化学空间中虚拟筛选出有活性的可成药分子?对于一些难成药靶点,能否生成全新骨架的药物分子?对于找到的候选分子,如何对特定性质进一步优化,又如何设计合成路线……?真实世界未满足的临床需求,药企对新技术的拥抱态度,为AI制药研究发展提供了直接而强大的助推力。

2.2 数据积累

人工智能模型的训练离不开数据,这一点在深度学习领域尤为关键。以AI制药领域近年进展最大的小分子虚拟筛选/生成与蛋白质结构预测两类任务为例,它们的突破也都离不开近10年来生物领域大规模实验数据集的支撑。

ChEMBL数据库(Gaulton, et al, 2012)是欧洲生物信息研究所开发的大型药物发现数据库,包含了大量药物分子与靶点的结合、功能和药代动力学性质等信息。在行业专 家与资本的推动下,ChEMBL数据库于2010年启动,目前已经更新到第31版,包含了超过233万个不同的化合物和1.5万个靶点 , 极大程度促进了各类人工智能算法的发展。

AlphaFold2的训练数据来自蛋白质序列数据库 UniProt(The UniProt Consortium,et al,2015)和蛋白质结构数据库Protein Data Bank(PDB)(Sussman, et al,1998)。其中,PDB是一个专门收录实验测得的蛋白质三维结构的公开数据集。过去的几十年里,PDB收录的结构 以接近指数的速度增长,从1982年的100个,1993年的1000 个,增长至1999年的1万个,再到2014年超过10万个(Berman, et al,2016),为人工智能在蛋白质结构预测领域的突破奠定了坚实的基础。

2.3 算法突破

如前文所述,2012年之后,人工智能领域兴起了深度学习的浪潮,许源于计算机视觉、自然语言处理和社交网络等领域的算法,都可以迁移至制药领域的各类问题,相较于传统机器学习方法取得性能上的飞跃。以药物研发流程中的虚拟筛选为例,它本质上是一个回归任务,即给定蛋白靶点与小分子信息,要求模型预测二者的结合亲和力。图2示出了虚拟筛选任务常见的网络结构

药物分子与靶点蛋白的结合是一个非常精巧的过程,一个官能团的微小改变就可能导致亲和力呈现出数量级的变化。因此,建立预测模型的关键难点在于,如何针对小分子和蛋白数据特点,构建机器学习模型,有效提取特征,捕捉小分子与蛋白之间的相互作用关系,从而实现亲和力的精准预测

DeepDTA(Öztürk,et al,2018)是 最 早 一 批 基于深度学习,依靠蛋白序列预测蛋白 - 靶点亲和力的工作,创新性地使用了卷积神经网络对蛋白质和化合物的一维序列进行特征提取,取得了相对较优的性能。但这样的方法存在着局限性,卷积神经网络在提取局部特征时,往往会忽视远程的相互作用。在之后的工作中,如何更好地表征分子与蛋白的特征,成为亲和力预测任务中大家关注的焦点,以下简单列举几

DeepCPI(Wan,et al,2019)将分子与蛋白视 作一种特殊的自然语言,基于无监督表示学习 , 从大量数据中学习分子与蛋白特征的表示。GraphDTA(Nguyen,et al,2021)指出将化合物表示为字符串的一维形式,将导致分子结构信息的丢失。通过将化合物分子建模为图的数据结构,开发了对应的图神 经 网 络 算 法。TransformerCPI(Chen,et al,2020)将Transformer架构引入对序列的特征提取,同时,通过分析注意力权重,能够有效打开神经网络黑盒,为模型提供可解释性。

值得一提的是,深度生成网络等技术近年来的 快速发展,使分子生成成为了继虚拟筛选后新的研究热点,对它的研究有望突破现有化合物库的限制,生成全新骨架的可成药分子,但对它的详细讨论不在本篇综述的范围内。

简而言之,AI For Science逐渐成为了人工智能 领域的重要分支,开始产生深远的影响。一个新的趋 势是学科间的深度交叉与融合,例如AlphaFold2的研究团队就是一个跨学科的团队,其发表在Nature的论文有19位共同一作(Jumper,et al,2021),包括物理、化学、生物、计算机等个研究领域。

由上述的分析可以看出,AI制药在近十年来的爆发绝非单方面因素,而是集齐了“天时、地利与人和”的系统性突破。希望对这个问题的讨论,能够让读者对AI制药浪潮出现的时机、发展历程的特征与未来趋势有更深的理解,或引发新的思考。

3 AI制药发展趋势

这里就 AI 制药未来的发展趋势问题,展开详细论述。

3.1 应用角度

3.1.1药物形式元化

从药物形式的角度来看,受限于产业与技术的成熟度,当前人工智能在药物研发领域的应用主要集中在小分子领域。然而,随着技术的不断改进,临床试验的开展,种新型疗法的安全性和有效性在近几年得到了极大程度的提升与验证。未来,人工智能技术的应用将从小分子进一步拓展到PROTAC(Zheng,et al,2022)、大分子蛋白药物(Shan,et al,2022)、mRNA疫苗(Sample,et al,2019)、基因治疗(Wang,et al,2020;Bryant,et al,2021)、肿瘤免疫(Lu,et al,2021)等领域(见图3)。例如基于深度学习的方法,能够设计高度样化的腺相关病毒的衣壳蛋白变体,有望提高基因治疗的疗效(Bryant,et al,2021)。

3.1.2药物研发全流程赋能

从覆盖药物研发流程的角度来看,由于生物系统的高复杂度与患者间巨大的个体差异,目前人工智能在药物研发领域的应用主要集中在临床前研究中的靶点发现、分子设计与优化等环节。然而据统计,一款药物在进入临床试验后,因为缺乏临床疗效、不良 反 应 等 原 因 的 失 败 率 高 达 90%,带来的金额损失高达到8亿至14亿美 元(Sun,et al,2022;Harrer,et al,2019)。未来,基于人工智能的方法有效提升临床试验环节的成功率将是一个重要课题。

3.2技术角度

3.2.1干湿闭环

大规模的公开数据集是模型训练的前提,干湿闭环则是对于人工智能在制药领域发挥价值的关键和重要发展趋势。所谓干湿闭环,一方面是基于湿实验高通量测试的结果,返回迭代模型,迅速提升模型在特定问题下的性能;另一方面,使用改进后的模型与主动学习等策略指导进一步实验,最大程度地加速药物发现,由此形成正向循环

3.2.2可解释性

相比传统方法,深度学习模型带来的性能提升在一定程度上牺牲了可解释性,制约了不同学科专家之间的交流合作,同时在药物研发领域将导致潜在的可信度与安全性等隐患。为深度学习开发新的可解释方法将成为未来的关键研究领域,有助于我们理解模型决策的依据、更好地评估模型的决策质量(Jim'enez-Luna,et al,2020)

3.2.3数据与知识融合

本世纪10年代后高速增长的生物数据成就了人工智能在制药领域的第一代浪潮,但受到实验技术限制,生物学的很问题并不存在大规模的数据,仅依靠数据驱动的建模方法也限制了深度学习的进一步应用。如何将复杂生物学系统的知识作为先验引入模型,是未来该领域的重点研究方向之一。

4 结束语

不可否认的是,AI制药仍处于非常早期的发展阶段,但其带来的影响已经深刻变革了传统制药领域,展现出积极的发展趋势。但同时,AI制药也面临着诸技术挑战和局限性,过度神化人工智能在新药研发中的作用亦是不可取的。道阻且长,行则将至,与疾病的斗争贯穿着人类社会的发展,想要赢得这一场战争的胜利,需要整个社会的共同持续努力。

(参考文献略)

选自《中国人工智能学会通讯》

2022年第12卷第11期

人工智能与生命科学专题

相关内容

热门资讯

数字直播破圈,源头好物上行:轻... 坐落于雄安新区容城县晾马台镇的轻纺城,深耕毛绒玩具产业四十余年,坐拥国内体量领先的毛绒产业集群,国内...
港股风向标|恒指放量失守250... 财联社6月5日讯(编辑 冯轶)港股今日继续走弱,截至收盘,恒生指数跌1.15%,国企指数跌0.77%...
AI智能体站上C位 算电协同发... 转自:财联社 《科创板日报》6月5日讯(记者 黄心怡)在2026上海SNEC光伏展上,算电协同和AI...
黄金单日跌超140美元,白银狂... 来源:21世纪经济报道 昨夜(6月5日)全球大宗商品市场巨震!黄金、白银、国际油价、加密货币市场全线...
原创 美... 美股芯片股大幅下跌,最具代表性的费城半导体指数下跌了10.26%,创出了近年来最大的单日跌幅。从美国...
2026年目标压力:中国制造业... 报告由美国信息技术与创新基金会(ITIF)2026 年 6 月发布,聚焦中国产业政策驱动的制造业扩张...
原创 变... 最近,发生了一件足已载入史册的大事——时隔近30年,黄金终于超越美债,再度成为了全球第一大储备资产。...
IPO雷达|海明润海外收入占比... 深圳商报·读创客户端记者 梁佳彤 6月5日,据北交所官网,深圳市海明润超硬材料股份有限公司(下称“海...
《置身钉内》:一封万言书背后,... 2026年6月4日,一篇署名“滕雅辛(幽素)”、来自ATH事业群悟空事业部的内部长文《置身钉内》在阿...
原创 S... 一家公司即将登陆资本市场,这本该是商业世界的新闻,却意外地披上了政治丑闻的外衣——它可能让十位美国政...
同仁堂:获加拿大境外生产场地认... 中证智能财讯 同仁堂(600085)6月5日晚间公告,公司下属分支机构北京同仁堂股份有限公司同仁堂制...
原创 历... 最近一两个月,身边聊黄金的人又多了。前阵子金店门口还排着长队,柜台被翻得叮叮响。 一转眼,金价开始坐...
楼面价首破10万、溢价150%... 界面新闻记者 | 王妤涵 深圳涉宅用地的楼面单价,首次突破了10万元/平方米。 6月5日下午,深圳...
原创 1... 太空算力,新热潮 港股,要迎来一个“新物种”。 近日,来自成都的商业航天企业国星宇航向港交所递交招...
原创 6... AI芯片越来越烫手,传统封装材料快扛不住了? 一块“玻璃”正在掀起半导体行业新革命。 这不是普通...
半导体大牛股,江波龙副总经理拟... 江波龙发布高级管理人员减持股份预披露公告。 6月5日晚间,半导体板块大牛股江波龙(301308)发布...
2亿,又一支传感器基金完成设立 文:韦亚军 摄影:Bob 目前,中国以传感器为主题的股权投资基金大概只有10余支,总规模不足100...
现货黄金抹去今年以来涨幅 国际... 隔夜股市 美东时间周五,美股三大股指集体收跌。道琼斯指数跌1.35%;标普500指数跌2.64%,...
“涨价速度罕见”!“一舱难求”... 近期,国际航运价格持续走高。集运指数(欧线)期货主力合约,自4月下旬以来累计涨幅超50%,此外,马士...
上交所规范券商交易单元监管,证... 上交所近期下发通知,要求券商 3 个月内完成不合规交易单元清理,取缔特殊通道特权,受监管新规影响,A...