AI 研习丨AI 制药的思考与展望
创始人
2024-11-28 19:52:54
0

文/汪小我,张梓婷

摘 要长久以来,制药行业面临着高成本、长周期、高失败率等痛点问题,人工智能技术的快速发展为突破创新药的研发困境带来了希望。首先梳理了 AI制药的发展历程与底层驱动因素,随后展望了其未来发展趋势。

关键词:AI制药;人工智能;靶点发现;虚拟筛选;分子设计

1 AI制药发展历程与现状

1.1. 起源

回顾AI制药的发展历程,并没有公认的起始节点,但借助计算的力量辅助药物设计,最早可以追溯到上世纪60年代。为了加快传统实验筛选的效率,药物化学家们开始以统计、物理、化学等门学科为基础,通过模拟与计算,分析药物与靶点蛋白之间的构效关系,指导药物分子的设计与优化。1981年,一篇名为《下一次工业革命 , 在默克公司用计算机设计药物》的文章登上了《财富》杂志的封面,宣告着计算机在未来药物研发中的巨大潜力

此后的很长一段时间,虽然各类计算辅助的理性设计方法给传统制药业带来了一定程度的效率提升,却不足以引发当年人们所期望的颠覆性变革。2004年的Nature Reviews Drug Discovery期刊中指出(Rawlins,2004),在过去30年中,药物开发的成本显著上升,全球仍有大量未满足的临床需求。尽管遗传学与分子生物学等学科的进步与高通量技术、生物信息学等项技术的发展给新疗法带来了希望,但如果不改变新药研发范式,这些希望也将无从谈起。

药物发现本质上是一个复杂的维、步骤的搜索与优化问(Jayatunga,et al,2022),以小分子药物为例,据化学家估计,可成药的化合物空间大约在1060(Mullard,2017),超越了太阳系原子的数量。人工智能在理论上赋予了“穷尽”庞大可成药空间的可能,且相较于传统的计算方法,能够应用到更广泛的场景。2000年前后,人们逐渐将神经网络、SVM和决策树等机器学习方法应用于新药研发。但由于问题的复杂度与巨大的样本空间,表征能力有限的各类简单模型极大程度地限制了人工智能发挥。

1.2 发展

历经年的发展,人工智能技术在制药领域的 渗透日趋紧密与成熟,在包含靶点发现、虚拟筛选、分子优化和逆合成路线设计等个环节已经实现了广泛应用(见图 1),并取得了重大突破。

2012年,前辉瑞科学家霍普金斯团队(Besnard,et al,2012)在Nature上发表文章,提出了针对靶点复杂药物配体的自动化设计流程为复杂疾病的药物设计提供了强大的新方法。

2018年,Waller教授在Nature发表文章Planning Chemical Syntheses with Deep Neural Networks and Symbolic AI,将深度学习用于化学分子逆合成路线分析,相比传统的搜索算法快了数十倍,效果与文献中实验报道的路线相当。这项研究也被誉为化学界的AlphaGO。

2019年,Insilico Medicine公司在Nature Biotechnology上发表了具有里程碑意义的一项工作(Zhavoronkov,et al,2019),基于深度生成模型与强化学习实现了DDR1激酶抑制剂小分子药物的设计,仅用21天就实现了潜在强效候选分子发现。

2020年,DeepMind团队的AlphaFold2 在CASP14蛋白质结构预测比赛中夺冠(Jumper, et al,2021),突破了困扰蛋白质领域长达50年之久的折叠难题,被评为2021年Science十大科学突破之首。

2022年,David Baker团队在Science连发两篇文章(Dauparas,et al,2022;Wicky,et al,2022),提出了从头设计蛋白质序列的原型方法,为未来大分子药物的研发提供了新的可能。

1.3 概念验证与现状

2020年以来,人工智能技术在制药领域的价值逐渐得到验证,陆续有药物进入临床试验阶段,但尚无人工智能设计出的药物上市。头部AI制药公司Exscientia的公开资料显示,自研的技术平台可将从靶点到候选药物的发现时间缩短70%(行业平均 54个月),研发投入降低 80%(行业平均6300万美元)。

2022年,波士顿咨询团队在Nature Reviews Drug Discovery期刊发表了名为AI in Small-Molecule Drug Discovery:a Coming Wave的文 章(Jayatunga, et al,2022),指出人工智能在药物发现环节中价值创造的几个潜在基本逻辑,并基于公开数据展开了全面分析。尽管在成本、临床试验成功率等维度的指标还有待观察,但已有的数据表明,个人工智能辅助的药物研发项目在4年之内就完成了药物发现和临床前研究过程,而业界这一历史数据在5 ~ 6年,提供了人工智能能够较显著地提升药物研发效率的初步证 明。

2 AI制药发展底层驱动力分析

不同于诸领域内,学术突破带来随后产业变革的发展模式,AI 制药的突出特点之一是学术研究与产业应用的强协同性。一方面,人工智能在药物发现领域取得的成就,离不开AI For Science学术界的高速发展;另一方面,AI For Science的学术进步,其背后从问题提出、数据积累、算法革新到模型验证等因素,都离不开产业界的力量。下面就AI制药发展的底层驱动力问题,展开详细论述。

2.1 问题和需求

周期长、投入高和成功率低是新药研发的三大痛点问题。据JAMA统计,2009—2018年,将新药推向市场的资本化研发投入中位数约为11.42美元(Wouters, et al,2020)。更糟糕的是,由于“低垂的果实”逐渐耗尽,即使技术在不断发展,新药研发的效率不增反降,医药研发领域存在着一条著名的“反摩尔定律”——大约每9年药物研发的成本会翻倍

因此,围绕着制药流程的各个环节,药企端涌现出了一系列亟待计算突破的问题:如何从组学数据或者文献中找出疾病的有效靶点?如何针对某一个靶点,快速从巨大化学空间中虚拟筛选出有活性的可成药分子?对于一些难成药靶点,能否生成全新骨架的药物分子?对于找到的候选分子,如何对特定性质进一步优化,又如何设计合成路线……?真实世界未满足的临床需求,药企对新技术的拥抱态度,为AI制药研究发展提供了直接而强大的助推力。

2.2 数据积累

人工智能模型的训练离不开数据,这一点在深度学习领域尤为关键。以AI制药领域近年进展最大的小分子虚拟筛选/生成与蛋白质结构预测两类任务为例,它们的突破也都离不开近10年来生物领域大规模实验数据集的支撑。

ChEMBL数据库(Gaulton, et al, 2012)是欧洲生物信息研究所开发的大型药物发现数据库,包含了大量药物分子与靶点的结合、功能和药代动力学性质等信息。在行业专 家与资本的推动下,ChEMBL数据库于2010年启动,目前已经更新到第31版,包含了超过233万个不同的化合物和1.5万个靶点 , 极大程度促进了各类人工智能算法的发展。

AlphaFold2的训练数据来自蛋白质序列数据库 UniProt(The UniProt Consortium,et al,2015)和蛋白质结构数据库Protein Data Bank(PDB)(Sussman, et al,1998)。其中,PDB是一个专门收录实验测得的蛋白质三维结构的公开数据集。过去的几十年里,PDB收录的结构 以接近指数的速度增长,从1982年的100个,1993年的1000 个,增长至1999年的1万个,再到2014年超过10万个(Berman, et al,2016),为人工智能在蛋白质结构预测领域的突破奠定了坚实的基础。

2.3 算法突破

如前文所述,2012年之后,人工智能领域兴起了深度学习的浪潮,许源于计算机视觉、自然语言处理和社交网络等领域的算法,都可以迁移至制药领域的各类问题,相较于传统机器学习方法取得性能上的飞跃。以药物研发流程中的虚拟筛选为例,它本质上是一个回归任务,即给定蛋白靶点与小分子信息,要求模型预测二者的结合亲和力。图2示出了虚拟筛选任务常见的网络结构

药物分子与靶点蛋白的结合是一个非常精巧的过程,一个官能团的微小改变就可能导致亲和力呈现出数量级的变化。因此,建立预测模型的关键难点在于,如何针对小分子和蛋白数据特点,构建机器学习模型,有效提取特征,捕捉小分子与蛋白之间的相互作用关系,从而实现亲和力的精准预测

DeepDTA(Öztürk,et al,2018)是 最 早 一 批 基于深度学习,依靠蛋白序列预测蛋白 - 靶点亲和力的工作,创新性地使用了卷积神经网络对蛋白质和化合物的一维序列进行特征提取,取得了相对较优的性能。但这样的方法存在着局限性,卷积神经网络在提取局部特征时,往往会忽视远程的相互作用。在之后的工作中,如何更好地表征分子与蛋白的特征,成为亲和力预测任务中大家关注的焦点,以下简单列举几

DeepCPI(Wan,et al,2019)将分子与蛋白视 作一种特殊的自然语言,基于无监督表示学习 , 从大量数据中学习分子与蛋白特征的表示。GraphDTA(Nguyen,et al,2021)指出将化合物表示为字符串的一维形式,将导致分子结构信息的丢失。通过将化合物分子建模为图的数据结构,开发了对应的图神 经 网 络 算 法。TransformerCPI(Chen,et al,2020)将Transformer架构引入对序列的特征提取,同时,通过分析注意力权重,能够有效打开神经网络黑盒,为模型提供可解释性。

值得一提的是,深度生成网络等技术近年来的 快速发展,使分子生成成为了继虚拟筛选后新的研究热点,对它的研究有望突破现有化合物库的限制,生成全新骨架的可成药分子,但对它的详细讨论不在本篇综述的范围内。

简而言之,AI For Science逐渐成为了人工智能 领域的重要分支,开始产生深远的影响。一个新的趋 势是学科间的深度交叉与融合,例如AlphaFold2的研究团队就是一个跨学科的团队,其发表在Nature的论文有19位共同一作(Jumper,et al,2021),包括物理、化学、生物、计算机等个研究领域。

由上述的分析可以看出,AI制药在近十年来的爆发绝非单方面因素,而是集齐了“天时、地利与人和”的系统性突破。希望对这个问题的讨论,能够让读者对AI制药浪潮出现的时机、发展历程的特征与未来趋势有更深的理解,或引发新的思考。

3 AI制药发展趋势

这里就 AI 制药未来的发展趋势问题,展开详细论述。

3.1 应用角度

3.1.1药物形式元化

从药物形式的角度来看,受限于产业与技术的成熟度,当前人工智能在药物研发领域的应用主要集中在小分子领域。然而,随着技术的不断改进,临床试验的开展,种新型疗法的安全性和有效性在近几年得到了极大程度的提升与验证。未来,人工智能技术的应用将从小分子进一步拓展到PROTAC(Zheng,et al,2022)、大分子蛋白药物(Shan,et al,2022)、mRNA疫苗(Sample,et al,2019)、基因治疗(Wang,et al,2020;Bryant,et al,2021)、肿瘤免疫(Lu,et al,2021)等领域(见图3)。例如基于深度学习的方法,能够设计高度样化的腺相关病毒的衣壳蛋白变体,有望提高基因治疗的疗效(Bryant,et al,2021)。

3.1.2药物研发全流程赋能

从覆盖药物研发流程的角度来看,由于生物系统的高复杂度与患者间巨大的个体差异,目前人工智能在药物研发领域的应用主要集中在临床前研究中的靶点发现、分子设计与优化等环节。然而据统计,一款药物在进入临床试验后,因为缺乏临床疗效、不良 反 应 等 原 因 的 失 败 率 高 达 90%,带来的金额损失高达到8亿至14亿美 元(Sun,et al,2022;Harrer,et al,2019)。未来,基于人工智能的方法有效提升临床试验环节的成功率将是一个重要课题。

3.2技术角度

3.2.1干湿闭环

大规模的公开数据集是模型训练的前提,干湿闭环则是对于人工智能在制药领域发挥价值的关键和重要发展趋势。所谓干湿闭环,一方面是基于湿实验高通量测试的结果,返回迭代模型,迅速提升模型在特定问题下的性能;另一方面,使用改进后的模型与主动学习等策略指导进一步实验,最大程度地加速药物发现,由此形成正向循环

3.2.2可解释性

相比传统方法,深度学习模型带来的性能提升在一定程度上牺牲了可解释性,制约了不同学科专家之间的交流合作,同时在药物研发领域将导致潜在的可信度与安全性等隐患。为深度学习开发新的可解释方法将成为未来的关键研究领域,有助于我们理解模型决策的依据、更好地评估模型的决策质量(Jim'enez-Luna,et al,2020)

3.2.3数据与知识融合

本世纪10年代后高速增长的生物数据成就了人工智能在制药领域的第一代浪潮,但受到实验技术限制,生物学的很问题并不存在大规模的数据,仅依靠数据驱动的建模方法也限制了深度学习的进一步应用。如何将复杂生物学系统的知识作为先验引入模型,是未来该领域的重点研究方向之一。

4 结束语

不可否认的是,AI制药仍处于非常早期的发展阶段,但其带来的影响已经深刻变革了传统制药领域,展现出积极的发展趋势。但同时,AI制药也面临着诸技术挑战和局限性,过度神化人工智能在新药研发中的作用亦是不可取的。道阻且长,行则将至,与疾病的斗争贯穿着人类社会的发展,想要赢得这一场战争的胜利,需要整个社会的共同持续努力。

(参考文献略)

选自《中国人工智能学会通讯》

2022年第12卷第11期

人工智能与生命科学专题

相关内容

热门资讯

南京市开展“1+1+5”突发环... 为检验南京市生态环境监测系统跨区域水污染事件的应急能力,进一步加强部门联动协作,提升应急响应效率和应...
数字化时代的产业创新:文旅企业... 随着数字化技术的不断发展,文旅企业正面临着前所未有的转型机遇和挑战。如何利用数字技术提升自身竞争力并...
小红书新成立应用算法部,各算法... 小红书将商业化、社区、电商的算法部门整合到一起了 据雷峰网消息称,近期小红书整合了商业化、社区、电...
国民养老引入首家外资股东,德国... 因看好中国养老金融市场,安联认购国民养老约2.28亿股新股,对应该公司2%的股权。此后,国民养老的注...
套现2.26亿元!又有银行股遭... 12月11日,模塑科技(000700)公告,公司于12月4日至12月11日通过集中竞价方式出售江苏银...
ETF盘后资讯|兜兜转转还是红... 熟悉的红利风格回来了!自11月末以来,A股红利指数持续稳健攀升,叠加资金热度回升。 今日在大盘整体缩...
机构行情要来了?大盘窄幅震荡,... 12月11日,市场全天窄幅震荡,三大指数涨跌不一。板块方面,零售、AI眼镜、上海国企改革、房地产等板...
欧科云链如何在Web3黄金时代... 2024年12月10日,欧科云链在成都举办了以“全球视野:Web3.0行业的机遇与挑战”为主题的媒体...
元保IPO:首次盈利背后,烧钱... 来源:市值观察 近期,互联网保险科技企业元保保险经纪公司(简称“元保”)更新了赴美IPO招股书,...
原创 为... 说到这里,朋友们纷纷夸我有远见又敢于尝试,我告诉他们,其实我最初赖以决策的依据是根本错误的,赚钱完全...
人民币汇率爆拉!市场盘后又有消... 今天下午有消息传出,XXX让汇率有序贬值,以应对明年的贸易风险。所以在下午1点多的时候,RMB汇率有...
东郊到家的商业模式基于共享经济... 在当前的财经语境下,健康产业正成为全球增长最快的领域之一。东郊到家,作为健康服务行业的一颗新星,以其...
明年1月1日起生育津贴发给参保... 明年1月1日起,生育津贴发给参保女职工本人 重庆中心城区成立全国首个网约车服务线下投诉点 春节出游...
深圳消防通报:1人死亡 2024年12月11日14时46分,深圳市消防救援支队接到报警:南山区粤海街道悦府二期住宅楼1栋一住...
国网信通:消除同业竞争问题 未... 当前能源转型新形势下,电网发展重心正向配电网转移,预计配电网将成为未来电网数智化建设的重要领域。该背...
李康康 史荟枫|对数字化金融服... 随着信息技术的迅速发展,新兴的数字化金融服务给人们提供了便捷、高效的体验,传统的金融服务模式已无法满...
ETF降费让利真香!哪家基金大... 来源:市值风云App 作者 |破浪 编辑 |小白 早在1993年,巴菲特就向公众推荐了指数基金,并认...
中期不悲观,短期补缺后仍是机会 【快讯】A股市场在重大利好消息刺激下高开低走,开盘即巅峰,随后逐步回落,最终微涨报收。盘面上,PEE...
原创 8... “废长立幼”3年后,双汇完成交接班。 作者 | 姚悦 武丽娟 编辑丨高岩 来源 | 野马财经 在卸任...
李学:用“大数据+AI”赋能白... 编者按: 2025年白酒行业预期增长乏力,企业如何在减量竞争的环境下,实现销售和品牌的高质量双增长?...