电脑会骗人吗?很明显,计算机可以被用作人们互相欺骗的工具(例如,假新闻,网络钓鱼等),但一个特别设计的人工智能代理有可能从事战略欺骗吗?换句话说,机器能否通过推理人类的感知、信仰和意图,设计并实施针对人类的极具欺骗性的策略?在什么样的人机遭遇战中这是可能的?机器的计算和认知架构的本质是什么?人们是如何理解这种机器欺骗的可能性的,又是如何应对的?
在人机交互中,计算机支持的合作和组织,计算机中介的商业,智能数据库,机器人团队。等等。可能会有骗人的电脑。特别是,在基于代理的范例中,我们将有“欺骗代理”。在与用户的交互中,或者在通过计算机的人与人之间,或者在不仅仅是形式上的原因(战争、商业、欺诈等)的人工代理之间,会出现几种欺骗。但也是出于善意和我们的利益。人工社会中的社会控制、信任和道德方面将成为理论研究和实践的焦点。爱情和欺骗之间有什么特殊的联系吗?
我们是一个由计算机科学家、心理学家和魔术师组成的团队,他们合作探索这些问题。我们的方法是将舞台魔术师使用的欺骗技术正式化(例如参见库恩、奥尔森和拉兹,2016年)这样它们就可以被构建到软件代理的思维过程中,并在与人类玩计算机游戏时测试这些代理的欺骗能力(参见2016年,史密斯-迪格纳姆-松嫩伯格律师事务所).该项目揭示了计算机故意欺骗人意味着什么,并提供了对软件代理在人机对话中部署高级“心理理论”推理能力的见解。
AI欺骗:当你的人工智能学会说谎
在我们开始提出技术防御之前,我们需要了解人工智能代理可能自己学会的欺骗类型
在人工智能领域,我们听到很多关于敌对攻击,尤其是那些试图“欺骗”人工智能去相信,或者更准确地说,错误地分类的东西。自动驾驶汽车被忽悠“思考”停车标志限速标志,熊猫辨认作为吉本斯,甚至让你最喜欢的语音助手被愚弄听不见的声音命令—这些是围绕人工智能欺骗的故事的例子。人们也可以指出使用人工智能操纵一个人的感知和信念通过”deepfakes“视频、音频和图像。艾少校会议也越来越频繁地提到人工智能欺骗的话题。然而,围绕这个主题的许多文献和工作都是关于如何愚弄人工智能以及我们如何才能做到这一点抵御它通过检测机制。
我想让我们注意一个不同的、更独特的问题:理解“人工智能欺骗”的广度,以及当欺骗性人工智能背后不是人类的意图,而是人工智能代理自己的学习行为时会发生什么。这些可能看起来有点遥远的担忧,因为AI的范围依旧相对狭窄,在某些方面可能相当愚蠢。对于今天的系统来说,拥有某种欺骗“意图”的类似物将是一大进步。然而,如果我们要在人工智能欺骗方面走在前面,我们需要对人工智能欺骗的所有方式有一个坚实的理解。在我们开始提出技术防御之前,我们需要一些概念框架或人工智能代理可以自己学习的欺骗类型的范围。
如果我们从相当长的历史角度来看,欺骗可能和世界本身一样古老,而且它肯定不是人类的唯一起源。的适应和进化幸存伪装之类的特征是欺骗性的行为,动物中常见的模仿形式也是如此。但是,准确确定什么构成了人工智能代理的欺骗并不是一件容易的事情——它需要对行为、结果、代理人、目标、手段和方法以及动机进行相当多的思考。我们在计算中包括或排除的内容可能会对哪些需要立即监管、政策指导或技术解决方案产生广泛影响。为了强调这一点,我在这里将只集中讨论几个项目,即意图和行为类型。
什么是欺骗?邦德和罗宾逊认为欺骗是“有利于交流者的虚假交流”1Whaley认为欺骗也是为了操纵他人而提供的信息交流。2这些方法看起来很简单,除非你试图强调什么构成了“意图”,什么需要满足这个门槛,以及虚假沟通是否需要对欺骗者明显有利的意图。此外,根据你采取的立场,出于利他主义的欺骗可能会被完全排除。想象一下,如果你问你的人工智能机器人管家,“我看起来怎么样?”它回答说,“非常好。”
先说意图。意图需要一个心理理论这意味着代理对自身有一些了解,并且它可以对其他外部实体及其意图、愿望、状态和潜在行为进行推理。3如果欺骗需要上述方式的意图,那么真正的人工智能欺骗需要人工智能拥有思维理论。我们可能会对这个结论稍加质疑,并声称当前形式的人工智能欺骗依赖于人类意图—一些人正在使用人工智能作为工具或手段来实现该人的欺骗意图。
或者,我们可能不会:仅仅因为当前的人工智能代理缺乏思维理论并不意味着他们不能学会欺骗。在多智能体人工智能系统中,一些智能体可以学习欺骗行为对“欺骗”究竟是什么没有一个真正的认识或理解。这可能很简单,比如隐藏资源或信息,或者提供虚假信息以达到某种目的。如果我们暂时把心智理论放在一边,转而假设意图不是欺骗的先决条件,并且一个智能体可以无意中欺骗,那么我们真的为现有的人工智能智能智能体打开了以多种方式欺骗的缝隙。
欺骗发生的方式呢?即欺骗行为类型有哪些?我们在这里可以确定两大类:1)委托行为,代理人主动参与类似发送错误信息的行为;和2)不作为,其中代理人是被动的,但可能隐瞒信息或隐藏。在适当的条件下,人工智能代理可以学习所有这些类型的行为。4只要想想人工智能代理如何用于网络防御可能学会发出各种形式的错误信息,或者如何发出信号蜂群人工智能机器人系统可以在战场上学习欺骗行为,以逃避对手的检测。在更普通的例子中,可能是一个指定不当或腐败的人工智能税务助理在纳税申报单上省略了各种类型的收入,以最小化欠相关当局钱的可能性。
为我们即将到来的人工智能未来做准备的第一步是认识到这样的系统已经在欺骗,并且很可能继续欺骗。这种欺骗是如何发生的,它是否是一种可取的特征(比如我们的适应性群体),以及我们是否能够实际检测到它何时发生,都将是持续的挑战。一旦我们认识到这个简单而真实的事实,我们就可以开始进行必要的分析了,到底什么构成了欺骗,欺骗是否对谁有益,以及欺骗如何带来风险。
这不是一个小任务,它不仅需要人工智能专家的跨学科工作,还需要社会学家、心理学家、政治学家、律师、伦理学家和政策专家的投入。对于军事人工智能系统,它也需要领域和任务知识。简而言之,如果我们不想发现自己处于不利地位,为人工智能欺骗开发一个全面的框架是至关重要的一步。
我们需要开始思考如何设计新的解决方案来减轻人工智能代理不必要的欺骗。这超出了当前的检测研究,需要考虑环境,优化问题,以及人工智能代理如何模拟其他人工智能代理,以及它们的紧急效果可能产生不良的欺骗行为。
此外,一旦这个框架到位,我们需要开始思考如何设计新的解决方案来识别和减轻人工智能代理人不想要的欺骗。这超越了电流侦查研究,向前发展需要考虑环境,优化问题,以及人工智能代理如何模拟其他人工智能代理,以及它们的交互或紧急效果可能产生危险或不良的欺骗行为。
我们目前面临着无数与人工智能欺骗相关的挑战,这些挑战只会随着人工智能认知能力的增加而增加。一些人希望用思维和社会智能的基本理论来创建人工智能系统,这是一个恰当的例子。要成为社会智能者,一个人必须能够理解和“管理”他人的行为5,如果这种理解他人的感觉、信仰、情感和意图的能力存在,同时还有影响这些感觉、信仰或行为的能力,那么欺骗就更有可能发生。
然而,我们不需要等待人工智能主体拥有思维理论或社会智能来欺骗人工智能系统。相反,我们应该在人工智能变得比现在更先进之前,开始思考这些即将到来的问题的潜在技术、政策、法律和伦理解决方案。随着对前景的更清晰理解,我们可以分析对人工智能欺骗的潜在反应,并开始为真相设计人工智能系统。
希瑟·m·罗夫博士是国家安全分析部约翰霍普金斯应用物理实验室(APL)的高级研究分析师。她还是布鲁金斯学会外交政策的非常驻研究员,以及剑桥大学未来情报研究中心的副研究员。她在新美国大学担任过许多教职和研究员职位。在加入APL之前,她是DeepMind道德与社会团队的高级研究科学家,也是牛津大学国际关系系的高级研究员。