MLOps(3): 可解释的人工智能(XAI)
admin
2023-09-10 00:06:29
0

可解释的人工智能指的是解释性ML解决方案的策略和程序


机器学习模型经常被视为无法破译的黑盒。因为学习者被训练来回答“是”和“否”类型的问题,而不解释答案是如何获得的。在许多应用中,解释答案是如何获得的对于确保信心和公开性是至关重要的。可解释的人工智能指使用人工智能技术(AI)的策略和程序,使得专家能理解解决方案的形成。

目录

  1. 可解释的人工智能(XAI)的目标是什么?
  2. 可解释人工智能的分类
  3. 用OmniXAI解释机器学习模型

“可解释性”是一种需求和期望,它增加了内在人工智能模型“决策”的透明度。让我们仔细看看可解释的人工智能目标。


可解释的人工智能(XAI)的目标是什么?

XAI的主要目标是回答关于获得性反应的“wh”(为什么、何时、什么、如何等等)问题。XAI能够提供可靠性、透明度、信心、信息和公平。

透明度和信息

通过提出一个外行人也能理解的基本原理,XAI可以提高透明度和公平性。对一个透明的人工智能模型的最低要求是,它要有足够的表现力,能够被人类理解。透明度对于评估XAI模式的绩效和基本原理至关重要。透明度可以确保任何错误的模型训练都会在预测中产生弱点,从而导致最终用户的巨大损失。虚假培训可能被用来改变任何人工智能/人工智能模型的泛化,导致任何一方不道德的收益,除非它是明确的。

可靠性和信心

导致人类依赖任何特定技术的最重要的方面之一是信任。每个预测或结论都有逻辑和科学的理由,这使得人们更喜欢人工智能/人工智能系统的预测或结论。

公平

由于AI/ML模型中的偏差和方差权衡,XAI提出公平和协助在证明或解释期间减少预测的偏差(偏差-方差权衡)。

可解释人工智能的分类

可解释的人工智能(XAI)技术分为透明和事后方法两大类。事后方法根据数据类型进一步划分。

事后方法

当存在非线性连接或增加的数据复杂性时,事后方法对于解释模型复杂性是有效的。在这种情况下,当数据和要素没有明确的联系时,后处理技术是解释模型所学内容的便捷工具。

基于统计和可视化的特征概要显示是面向结果的可解释性技术的基础。统计呈现表示每个特征的统计,每个特征的相关性基于其在预测中的权重来测量。

事后XAI方法将经过训练和/或测试的人工智能模型作为输入,并以特征重要性分数、规则集、热图或简单语言的形式产生模型内部工作和决策逻辑的可理解表示。许多事后方法试图揭示特征值和预测模型输出之间的相关性,而不考虑模型的内部。这有助于用户识别ML工作中最相关的特征,量化特征的值,复制黑盒模型选择,以及识别模型或数据中的偏差。

本地可解释的与模型无关的解释例如,通过扰动真实样本,观察给定扰动实例的ML模型输出的变化,并构建在原始样本的邻域中近似原始模型行为的局部简单模型,来提取特征重要性分数。模型不可知和模型特定的后过程技术是后过程的两种类型。关于特定深度学习模型的学习方法和内部结构的可解释性限制由模型特定的策略支持。为了理解学习机制并给出解释,模型不可知方法使用模型输入和预测的成对分析。

人们注意到,全球技术可以解释所有数据集。另一方面,与模型无关的工具可以用于任何AI/ML模型。在这种情况下,输入和结果的配对检查对可解释性至关重要。特定于模型的策略,如特征相关性、基于条件的解释、基于规则的学习和显著图。

透明方法

诸如逻辑回归、支持向量机、贝叶斯分类器和K最近邻之类的透明方法提供了具有用户本地特征权重的基本原理。这个类别包括满足三个属性的模型:算法透明性、可分解性和可模拟性。

  • 模拟能力指模拟必须由人类执行的模型的能力。该模型的复杂性对于人使能的模拟是重要的。例如,稀疏矩阵模型比密集矩阵模型更容易理解,因为稀疏矩阵模型更容易被人们合理化和理解。
  • 可分解性指模型所有方面的可解释性,从数据输入到超参数和内在计算。这些特征建立了模型的行为和性能限制。复杂的输入特征难以理解。由于这些限制,这种模型不属于透明模型的范畴。
  • 算法透明性指定算法从输入提供的数据到最终判断或分类的可解释性。决策过程应该对用户透明。例如,线性模型被认为是透明的,因为误差图易于理解和解释。通过使用可视化,用户可以理解模型在不同情况下的反应。

透明模型是通过以下可解释的人工智能技术实现的。

  1. 线性/逻辑回归(LR)用于预测服从二元变量特征的因变量。这种策略基于预测者和预测变量之间的灵活匹配的假设。该模型要求用户熟悉回归技术及其工作机制,以便理解逻辑回归.
  2. 决策树满足大环境下的透明需求。它是一个具有层次结构的决策工具。较小的决策树很容易模拟。树中的层数增加了算法的透明度,但降低了它的刺激性。经过训练的决策树的集合有效地克服了由于它们较差的概括能力而导致的较弱的概括质量。由于这一变化,决策树工具现在不那么透明了。
  3. k-最近邻(KNN)通过对测试样本最近邻的类别进行投票来预测测试样本的类别。近邻算法投票基于实例的距离和相似性。KNN的透明度由用于量化相似性的特征、参数N和距离函数决定。较大的K值会影响用户对模型的模拟。复杂的距离函数限制了模型的可分解性和算法执行的透明性。
  4. A 规则学习模型指定将用于定型模型的规则。该规则可以用简单的条件if-else形式或一阶预测逻辑来定义。规则的格式由知识库的类型决定。这种模式受益于两条规则。首先,因为规则是用语言文字写的,所以用户可以容易地掌握它们。第二,它比传统的基于规则的范式更有能力处理不确定性。模型中的大量规则提高了效率,而没有牺牲模型的可解释性和透明性。
  5. 贝叶斯模型是一种概率模型,它结合了因变量和自变量集合之间的条件依赖的概念。这贝叶斯模型对于理解条件概率的最终用户来说足够简单。贝叶斯模型对于所有三个可分解的、算法透明性和人类模拟质量来说是足够的。贝叶斯模型的透明性和模拟可能会受到复杂变量依赖性的影响。

用OmniXAI解释机器学习模型

OmniXAI是一个开源的可解释AI包,为广泛的机器学习模型提供全方位的可解释性。OmniXAI可以评估数据分析和探索中的特征相关性和数据不平衡问题,帮助开发人员快速删除重复特征并识别潜在的偏差问题。OmniXAI可以通过研究特征和目标之间的联系,协助用户理解数据方面,并进行特征预处理,从而找到特征工程中的本质特征。OmniXAI在模型训练和评估中提供了多种解释,如特征属性解释、反事实解释和基于梯度的解释,以完全检查为表格、视觉、NLP或时序任务创建的模型的行为。

想要代码实现过程可DM

结论

可解释人工智能的基础是更透明的ML模型,它们本身只能部分解释,以及事后可解释的方法,这使得模型更具可解释性。

转载请联系

相关内容