作者:Barrie Wells
小晨编译
人工智能与油气勘探至少有一个共同点:繁荣与萧条的历史。其他行业可能会抱怨其产品需求的不可预测性,但通常不必应对其产品价格像原油价格一样剧烈波动的市场。众所周知,石油勘探和生产的繁荣与萧条,其原因对于大多数经济学家来说过于复杂,无法理解。人工智能的兴衰可能更容易解释:过度乐观。
一些重要的历史
人工智能在1956年被认为已经成为一个独立的研究领域,当时美国最重要的研究人员在一所暑期学校会面并给该领域起了现在的名字。除了命名这门新科学外,他们还做出了一些预测,广泛声称机器将在一代人的时间内与人类一样聪明。这导致大量研究资金涌入,特别是来自国防高级研究计划局 (DARPA,即美国军方),然后在几年后,当预期的收益未能实现时,同样巨大的资金损失。这种退出后来被称为第一个人工智能冬天,但直到20世纪末的第二次乐观浪潮导致历史重演之后。
我们现在又一次经历了春天,人工智能的萌芽遍地开花。今年的BBC Reith讲座是关于人工智能的,特别是当机器最终变得比我们更聪明时我们将面临的危险。所以也许我们学到了一些东西:如果不回拨乐观情绪,那么至少在我们飞跃之前要看看。
今年真的不一样吗?我们不满的冬天最终会变成灿烂的夏天吗?在考虑这个问题时,过去的表现可能不是未来的最佳指南,但它不是一个糟糕的起点。所以,一些历史背景应该是有用的。了解人工智能的工作原理,至少在启发式层面上,应该有助于我们了解在我们的行业和专业领域中,我们可能期望在不久的将来看到最大的变化。
好处:互联网和搜索引擎
第一个要注意的历史点是,人工智能实际上并不是资助者周期性的戏剧性撤退所暗示的失败,尽管成功有时是不同的。DARPA对纯概念研究的资助,不附加任何条件,给了我们互联网,互联网通过搜索引擎获得了广泛的接受,主要的搜索引擎通过使用人工智能获得了主导地位。或者,在不太实用的层面上,据说对人工智能的研究教会了我们关于人类智能和一般智能本质的知识,就像它对机器智能的了解一样多。一个关于上世纪末人工智能状态的声明是,我们教会了计算机去击败世界象棋冠军,而不是去执行由三岁孩子掌握的任务,比如自然语言处理。起初,下棋(并赢得)被视为成就的顶峰。
这在莫拉维克悖论中得到了形式化,该悖论指出证明定理和解决几何问题(演绎逻辑)对于计算机来说相对容易,但是像识别人脸或穿过房间而不撞到任何东西(归纳逻辑)这样的简单任务却极其困难。掌握自然语言处理是人工智能的另一个绊脚石。下面的两条陈述说明了一些潜在的困难:Time flies like an arrow。Fruit flies like a banana。
如何教计算机区分“flies”和“like”的不同用法?简单的基于规则的系统发现这几乎是不可能的。但是结合访问整个英语文献库进行比较测试,人工智能可以使用“群众的智慧”来区分意图和上下文,从而至少在概率上推断出预期的含义。
通过利用1956年参加暑期学校的研究人员无法获得的突破,人工智能取得了重大成功:
机器学习专家系统
专家系统有一个规则库或知识库:诸如“如果温度降到零度以下,那么水很可能会结冰”之类的规则。添加依赖于压力和水中杂质存在的规则,连同温度传感器和压力传感器,甚至可能是杂质成分检测器,或至少输入浓度,专家系统可以轻松处理以前分配给人类的任务,效率更高、错误更少和决策速度更快的好处。事实上,上世纪最后25年的“失败”时期给我们留下了许多嵌入式AI系统,它们默默地完成自己的工作,使钻机和平台成为更安全的工作场所。然而,专家系统只能做到这一点。规则可以涵盖一些看起来相当复杂的封闭系统,但它们在驾驶汽车等方面没有成功的希望。规则太多了,需要一种不同的范式。
神经网络
神经网络(Neural Networks)之所以如此命名,是因为它们旨在模仿人类大脑的工作方式,尽管共享名称可能是两者之间最大的相似之处。人工神经网络(我们简称为NN,从技术上讲,我们或许应该使用ANN)更多地是一个概念或想法,而不是一个特定的数学过程。
用于说明NN的图表几乎总是与此类似:
或许可以概括为:“有输入,有输出,中间有龙”。为了有用,图表应该有助于解释:这个图表打算解释什么?
退一步说,在NN之前,我们可以执行类似的程序,即接受输入并找到使用数据进行预测的方法。最简单的是线性回归,它依旧是数据预测的支柱。这将“这里是龙”替换为“找到线性预测,最大限度地减少输出中的(平方)误差”。
然而,除了最简单的情况外,这在所有情况下都是不够的。例如,Archie依靠两步过程提出了一个公式(“最佳预测”,或者用NN术语,“输出”)来预测岩石的孔隙度、电导率和流体饱和度之间的经验定量关系从输入。
其中R0 =当所有孔隙都充满盐水时砂的电阻率,Rw =盐水的电阻率,0是砂的孔隙率分数,m是表示正在讨论的关系的线的斜率。
对于Archie,龙将被替换为找到“最佳”变换,以获得公式的形式,然后在变换后找到最佳线性预测,以找到任何特定情况下的因子(水泥指数、饱和指数)。对我们来说,这现在是一个简单的两步过程,一个步骤接着另一个,然后是结果,但对于Archie来说,这是一个部分试错过程。当然,他会以他对所涉及的物理过程的知识为指导。那会让他尝试逆向关系和非线性(提高到1/n次方),所以这不仅仅是试错法,而是部分如此。
另一方面,计算机对过程一无所知,因此必须完全依靠试错。作为回报,它能够进行更多的试验并快速计算错误,从而获得了更多的补偿。每次试验都需要尝试一种转换或公式形式,并找出使用最佳可能因子或指数进行预测的效果。如果计算机继续独立地尝试公式形式和该公式中最佳指数的每一种组合,它将忽略一个重要的信息来源:如果一个比前一个更差,那么它将朝着错误的方向发展。因此,这两个步骤应该相互沟通。如果有,我们就有一个简单的两层反向传播人工神经网络。
线性回归很容易扩展到非线性和多元回归,但最终,从数据中挑选趋势或结论的方法只有这么多,关键的是,相关性或巧合原则是我们目前所知的所有方法的核心。它最大限度地减少了错误,这就是我们想要实现的:最小的错误。因此,机器学习和深度学习本质上是对熟悉的相关和回归过程的概括。
问题:概念而非数学
当Archie进行非人工智能调查时,他知道哪种公式形式和哪种参数组合表现最好,正是这种形式和组合为他现有的电阻率数据提供了最佳的含水饱和度预测。换句话说,他知道自己想要的答案,因此有办法衡量“错误”,并有“最佳”的含义。这是因为他有足够的电缆记录数据。
在其他情况下,可能不需要数据。由于它在大众媒体中的广泛曝光,深度学习最著名的例子之一是AlphaGo,这是一个自学提高围棋水平的程序,然后击败了卫冕世界围棋冠军。就复杂性而言,这是比深蓝在国际象棋上的成功更大的成就。然而在某些方面,AlphaGo的开发者有一个相对简单的任务,因为“最好”很容易被描述:最好的结果就是在比赛中获胜。“你是怎么玩这个游戏的”这一点没有意义,要么全有,要么全无。因此,至少从概念上讲,设置一台计算机来玩大量的围棋游戏并让软件记住,或者用当前的术语“学习”,这是很容易的,导致胜利的动作比导致失败的动作要好。
目标函数
然而,无论是从理论还是从数据和经验的组合中获得,任何学习算法都需要定义什么是好的和什么是坏的:它需要一个“目标函数”,可以量化输出的值,从而告诉它是在正确的路线上还是在错误的树上。我们已经看到了目标函数的两个可能来源(AlphaGo的输/赢和Archie的数据),即对什么构成“最佳”的判断。这个判断是必要的。没有它,就没有学习,在计算机软件中没有“Ask Solomon”命令的情况下,我们不得不依赖规则理论或数据和经验的结合。
机器学习最常受到批评的是选择好与坏的仲裁者的潜在陷阱。许多经常被引用的例子,如果经过调查,通常会被发现是杜撰的。美国国防部(DoD)创造了一个久负盛名的城市传奇:据说在冷战期间,美国国防部试图训练人工智能来区分友军坦克和敌军坦克,以便自动发射导弹。示威很有希望,但试验是灾难性的,因为友军坦克成为了人工智能的目标。各种版本的故事都会说,这是因为人工智能是根据照片训练的,照片中所有友军坦克都在战场上,敌人坦克在森林里,其他友军坦克是在上午拍摄的,敌人坦克是在下午拍摄的。因此,AI是根据树木的存在与否或阴影的方向来区分的。这是一个如此诱人的故事,尽管没有根据,但它依旧会被重复。然而,有足够多的实际错误表明必须吸取教训。最近的一个美国政府面部识别软件的例子被发现对白人男性的准确率为98%,但几乎不比对其他种族类型的猜测好。虽然可以很容易地看到这个错误,但仅仅通过查看输出结果,我们如何知道我们负责勘探的AI是否使用碳酸盐岩油田的数据来判断碎屑岩储层?审视人工智能、询问它为什么做出选择的能力目前正在缺失,而且随着深度学习系统“深度”的每一次增加,它变得更加难以实现。在没有任何方法来询问人工智能的情况下,我们这些专家依旧有必要,至少在目前,对学习过程进行批判性评估。
因此,我们有一个强大的工具,需要很好地使用它,但我们知道它有局限性。
我们如何利用我们对应用领域(即勘探地质和地球物理学)的知识来最大限度地减少瞄准“错误储罐”的机会?答案应该在于对技术有很好的理解,但也有一点常识。举例来说,在涉及序列的应用中,从岩石地层学到地震解释,我们知道如果一个序列的完美拟合意味着周围的序列无法协调,那么它是没有用的。AI也注意到这是一个问题,在AI中,这有时被称为按钮问题。
总之,我们应该通过在现场工作和查看数据,成为了解问题的最佳来源。把所有的东西都交给电脑,而不把这种体验也交给电脑,这就是失败的秘诀。我们将在第2部分进一步探讨这个主题。(待续)
更多精彩内容,敬请关注我们的微信公众号:智慧能源之窗
上一篇:抖音广告五大热门投放行业揭秘!
下一篇:解析人工智能对生物哲学论的诠释