人工智能和精准医疗是当下最为火热的行业之一,而个性化的医疗离不开多维度数据的基础,如何进行大数据解读和挖掘就成了精准医疗的核心问题之一,而人工智能的出现则为这一困难提供了可行的解决方案。
疾病的发生发展并不一定以某一特定因素为中心,包括环境和遗传在内的不同因素的不同组合可以汇聚成不同的表型状态,这阻碍了我们对疾病机制的深入理解及潜在治疗策略的发现。因此,从不同维度收集疾病相关信息对于全面的机制洞察尤为重要。随着高通量技术的蓬勃发展,多种组学技术被开发用以呈现不同维度互补的生物信息,涵盖了基因组学、表观基因组学、转录组学、蛋白质组学和代谢组学等(图1)。
基因组学
基因组包含遗传信息,通过调节基因表达来决定细胞的结构和功能。近年来,基因组变异研究已进入泛基因组学阶段,基因组数据也随之迅速扩展。人工智能技术加速了基因组分析在疾病管理中的应用。除了鉴定基因组变异之外,基因组学分析在临床实践中的新兴应用场景包括治疗反应监测和表征疾病耐药性机制。
表观基因组学
表观遗传变化可以通过核苷酸和蛋白质的化学修饰来影响基因的表达和功能,而不改变实际的核苷酸序列。越来越多的证据表明,表观遗传变化在人类癌症的发生发展中起着重要作用,主要涉及表观基因组修饰和染色质可及性(也叫染色质开放性)。通过表观遗传学方法,癌症患者中涉及肿瘤起始、生长、转移和免疫逃避的诸多表观基因组特征得到了全面的呈现。许多表观遗传生物标志物及相应的治疗策略开始被纳入临床实践。
转录组学
RNA可以将存储在DNA中的遗传信息转化为蛋白质。非编码RNA的出现扩展了转录组的功能。作为基因组遗传信息和生物功能(蛋白质组)的中间纽带,转录组也可以作为蛋白质表达和基因组活动的间接指标。通常,转录组的动态变化反映了体内的生理重塑。转录组分析可以捕捉基因表达的变化,有助于理解疾病的发生发展机制。转录组技术在生物标志物发现、疾病诊断分类、治疗方案优化等方面具有广泛的应用价值。
蛋白质组学
蛋白质是生命活动的执行者,是细胞功能的主要承担者,从DNA复制、转录、翻译,催化代谢反应到细胞运动驱动,为生命活动提供重要支持。蛋白质连接了基因型和表型,比基因组或转录组更能反映细胞的真实状态。质谱技术的进步使蛋白质组能够满足大规模临床研究的高通量和重复性要求。蛋白质组阐释疾病发生的复杂机制,探索新的治疗靶点和可用于临床的生物标志物,为了解生物过程和疾病进展提供了重要信息。
代谢组学
代谢组是指参与生物体新陈代谢、维持生物体正常生长功能和生长发育的小分子化合物的集合,可以直接反映机体的病理生理状态。代谢物对内部信号和外部刺激极其敏感,这意味着代谢组可以作为潜在的生物表型探针,来反应细胞的即时状态。代谢失调导致特征性的代谢表型,可用于疾病早期诊断、监测和/或作为潜在的治疗靶点。代谢组学可以系统识别和量化生物样本中的所有代谢物,已成为阐明疾病机制,辅助疾病诊疗监测的有力工具。
不同组学的策略已被广泛应用到生命科学领域的研究中,依据起始研究重点的不同可以将这些应用分为三类:基因组优先(genome first)、表型优先(phenotype first)和环境优先(environment first)。然而除基因组外,其他不同维度的数据都反映了遗传和环境在内的的多重调控,这可能会在不同程度上影响每个分子。而多组学通过描绘从DNA到代谢物层面的几乎所有生物分子,实现对复杂生物系统表征定量,帮助我们理解从疾病的原始原因(遗传、环境或发育)到功能后果或相关相互作用(图2)。
除组学数据外,其他类型的数据在临床诊疗中也在快速增长,如临床信息编码、分子测量、组织病理学、放射学等数据。将这些信息与多组学数据整合起来,可以更加全面地描述机体状态,更高效地指导临床决策。然而,随着可用数据变得越来越多而广泛,又出现了一个棘手的问题,那就是如何集成并综合这些数据,从指数级增长的数据中获取有价值的信息?
一系列人工智能(artificial intelligence)算法,特别是机器学习(machine learning)已被广泛应用于多组学数据的整合分析,可以系统地捕捉多组数据之间的复杂关联,建立更可靠的多组学数据联动。此外,人工智能方法可以有效解决数据异构、维数魔咒、数据缺失、类不平衡、大数据扩展性等问题。通过人工智能算法整合多组学数据和非组学数据,全面解析机体状态(图3)。随着多组学技术的蓬勃发展,基于人工智能的多组学分析将极大地促进临床诊疗决策的发展,尤其是在精准医疗领域。
人工智能算法可以集成来自多个平台的数据,包括基因组学、表观基因组学、转录组学、蛋白质组学、代谢组学、病理学、放射学等,以更准确地实现疾病早筛,进行疾病亚型分类,并为疾病预后预测和治疗反应监测提供强大的支持。
以癌症为例,目前组织病理学诊断是实体瘤确诊的主要方法,但其在早期检测和非症状性癌症中的应用受限。人工智能和多组学的联合有助于提高早期癌症检测的灵敏度和特异度。Cohen等人将血浆蛋白标记物和cfDNA突变与人工智能相结合,开发了CancerSEEK来检测早期癌症,可以直接预测八种不同癌症类型。Wang等人结合血清外泌体中microRNA和肝细胞癌标志物甲胎蛋白(AFP)建立了一个诊断模型,以0.93的AUC区分肝硬化和肝细胞性癌症。随着人工智能算法和多组学技术的发展,对多种数据信息的整合,将促进疾病早期检测和筛查的发展。
精准诊疗的前提是明确疾病亚型,进一步提出最佳治疗策略。随着高通量技术的蓬勃发展,疾病分类已经从传统的“形态学”发展到了“分子分型”的新时代。多组学方法是一种新的框架,通过整合来自同一患者的多组学数据,了解不同层面的分子信息。例如福建医科大学胡志远团队基于粪便多组学数据结合机器学习,建立了区分健康、克罗恩病、溃疡性结肠炎的三分类诊断模型(AUC=0.84)。人工智能算法可以处理和集成多种来源的数据,通过多维聚类分析进一步明确患者的分子特征和临床特征之间的关联。
由于个体异质性和遗传变异等因素的存在,不同患者对治疗的反应不同。基于人工智能的多组学分析可用于预后和治疗反应监测,指导疾病治疗。樊嘉院士团队使用262例患者的成对肿瘤和邻近肝组织对肝内胆管癌进行蛋白基因组学表征,整合基因组、转录组、蛋白质组、磷酸化蛋白质组和微生物组等多维数据,为阐明肝内胆管癌发病机制、分子分型和预后预测提供了新思路。此外,基于人工智能的多组学分析也有助于挖掘新的治疗靶点,为实现个体化治疗提供支撑。