AI大军接管六大科技巨头,老板打工人皆是AI!效仿微软组织结构,工作效率惊人
创始人
2024-08-12 14:09:11
0

新智元报道

编辑:桃子

【新智元导读】你有没有想过,或许未来某天,AI大军完全能够承担公司重任,人类是否会沦为配角?

小扎坚信,「未来世界上AI智能体,将比人类还要多」。

那么,如果这些AI也有企业文化,会怎样?

它们是否也像人类一样,既有手握决策大权的AI,也有苦哈哈干活的AI。

几个月前,OpenAI曾被曝出,内部定义了五级AGI路线,L5——组织者:可以完成组织工作的AI。

这所说的,或许就是未来公司的组织架构图。

因为多个智能体的合作,正在崛起。

此前,一项研究表明,拥有30+AI智能体系统,在几乎任何任务中,都优于简单的LLM调用,同时还减少了幻觉,提高了准确性。

论文地址:https://arxiv.org/pdf/2402.05120

但是,多个智能体之间,应该如何进行实际协作呢?

在探索改善AI在软件工程任务中的表现的方法时,Alex Sima突然有了灵感:

如果将AI智能体之间互动机构化,让其类似于科技巨头的「组织架构图」,会怎样?

接下来,Alex让AI接管了6大科技巨头——亚马逊、谷歌、微软、苹果、Meta、Oracle,看看它们如何协作。

先来一张图,感受下。

关键要点

以下是,Alex将AI智能体,组织成类似苹果、微软、谷歌等公司结构后,得到的一些关键要点:

- 有多个「竞争」团队(即竞争生产最佳最终产品)的公司,如微软、苹果,表现优于集中化的层级结构。

- 具有单点故障(比如一个领导者做出重要决策)的系统,如谷歌、亚马逊和Oracle,表现不佳。

- 大型科技公司的组织结构,对问题解决能力有适度但明显的影响。

AI智能体与科技巨头组织

之前通过简单增加AI智能体数量,来提升性能的方法,比如SWE-bench,并未取得显著的成效。

这表明,仅仅依赖数量的增加,并不能解决问题。

那么,有什么其他的方法可以让AI智能体在软件工程方面变得更好?

三周前,Alex偶然看到了James Huckle关于「康威定律」的一篇文章——软件和产品架构注定会反映创造它的组织结构。

James展示了一幅插图,揭示了亚马逊、谷歌、Facebook、微软、苹果和Oracle的戏剧化组织结构,并提出了一个想法:

就像大型科技公司中的人类一样,多智能体通信结构可能会塑造问题解决方法。

Alex受到启发,决定在SWE-bench实例上测试James的假设。

实验设置

作者将AI智能体组织成不同的公司结构,在SWE-bench-lite的13个实例「mini」子集上,评估了六种不同的组织结构。

在构建这六种组织时,他基于一些核心观察设计了多智能体组织结构:

亚马逊

顶层有一个「管理者」的二叉树。

为了复制这一结构,Alex使用了大量执行代码库搜索的智能体,和一个最终执行代码库更新的单一智能体。

谷歌

类似亚马逊的树状结构,但中间层之间有更多连接。

Alex通过在单一层内聚合复制所有智能体结果,并将其传递给下一层的智能体。

Meta(Facebook)

缺乏层级结构,但仍是一个智能体之间有许多连接的网状组织。

Alex通过增加不同智能体之间的转换可能性,来修改原始的智能体设计。

微软

强调竞争团队,每个团队有自己的层级。

本质上,Alex重新调整了亚马逊的结构(减少智能体数量),并使用向量相似性投票方法,从三次单独运行中选择「最佳」解决方案(每次运行对层级结构略有调整)。

苹果

许多小型竞争团队,每个团队都有自己的最小结构。

Alex使用了与微软相同的「最佳解决方案」方法,但进行了更多没有智能体层级的运行(每次运行有不同的转换)。

Oracle

有两个不同的团队,一个较大的「法律」二叉树和一个较小的工程树。

Alex将法律团队解释为,搜索代码库和检索关键上下文的智能体,而工程团队由实际编写代码的智能体组成。

两个团队的结构类似于亚马逊,顶层有一个单一智能体协调「法律」和「工程」之间的信息传递。

评估结果

为了评估SWE-bench上的每组patch,作者使用了SWE-bench evaluation。

结果如下:

组织结构图绩效分析

以下是作者对不同公司结构,如何影响性能的一些观察:

- 有竞争力的团队增加成功机会。

表现最佳的两个(微软和苹果)都有多个团队在竞争解决问题,而其他公司似乎只有一个巨大的团队生成单一patch。

多个团队允许增加问题解决方法的多样性,提高解决问题的概率。

- 有单点故障的结构表现不佳。

提到单点故障,是指是那些有高层管理者/智能体可以完全改变运行结果的公司(如谷歌、亚马逊和甲骨文)。

在协调多个智能体之间的互动时,一个常见问题是某个智能体失败——导致可能出现一个智能体改变团队问题解决策略方向的情况。

具有单点故障的公司容易受到这些问题的影响。

另外,表现最好的两家公司,微软和苹果,恰好是世界上市值最大的两家科技公司。

事实证明,在现实世界中似乎最有效的组织结构对AI智能体也同样有效。

截图来自CompaniesMarketCap,2024年07月25日

对SWE-bench进展的思考

看着不同公司结构的结果,在这个Mini基准上是可以预料到的。

总的来说,似乎在一个像软件工程这样复杂的任务中,增加更多的智能体,或改变这些智能体的组织方式,只会带来边际性能的提高。

虽然论文More Agents Is All You Need 发现,准确率有相当大的提高(约20%),但在GSM8K(小学数学)测试中,30个智能体后性能明显趋于平缓。

研究还发现,过于复杂的任务(如SWE-bench中的任务)可能超出模型的推理能力,导致性能增益递减。

坐着在SIMA中同样验证了这一发现,最多只比基础架构提高了2-3%(使用40多个智能体)。

他预计,这种小幅提升在其他非多智能体架构中也会一致。

作者认为,若想在基准测试上取得更大进步,需要改变智能体的实际逻辑推理能力,或者它们可以采用(或被给予)的解决软件问题的策略和方法。

这可以通过更强大的基础模型(GPT-5)或给予智能体更广泛的工具来实现。

这与公司运作是一样的。

归根结底,如果你不雇用更聪明的员工,或给他们更好的资源,无论你如何组织他们或有多少人,他们的产出都不会提高。

不得不承认,13个实例的性能可能与完整基准测试的实际性能相差甚远。

仅在这个mini子集中的差异就足够显著,值得关注(从谷歌到苹果提高了约50%)。

基础模型/工具可能是智能体软件工程的限制因素,但随着基础模型的改进,探索智能体通信结构(无论是否在公司组织中)绝对应该被测试。

正如James Huckle所说,这个概念可能成为AI智能体设计中的「关键超参数」,不同的组织结构可能更适合不同的任务。

参考资料:

https://alexsima.substack.com/p/ai-multi-agents-with-corporate-structures

相关内容

热门资讯

渡过“充电宝危机”,这家“全球... 来源:市场资讯 来源:IPO日报 近日,深圳市绿联科技股份有限公司(下称“绿联科技”)递表港交所,...
【诺和诺德ADR止跌回升,美国... 【诺和诺德ADR止跌回升,美国FDA局长威胁封杀Hims & Hers仿制药丸】诺和诺德美股盘前涨幅...
原创 肝... 立春了,天气慢慢变得暖和起来,可是不少朋友反倒觉得身体不太舒服:早上起来嘴巴又干又苦,长时间看屏幕之...
原创 能... 当地时间2月2日夜间至3日凌晨,俄罗斯对乌克兰全境发动2026年以来规模最大的联合导弹与无人机打击,...
三川智慧:拟设乌兹别克斯坦子公... 来源:问董秘 投资者提问: 乌兹别克斯坦稀土矿产生产行业的发展也受到了政府的支持。政府出台了一系列优...
蔚来乐道宣布春节高速换电服务费... IT之家 2 月 6 日消息,蔚来旗下乐道品牌今日宣布,2 月 15 日(腊月廿八)-2 月 23 ...
新华医疗终止收购中帜生物36.... 来源:滚动播报 (来源:北京商报) 北京商报讯(记者 丁宁)2月6日晚间,新华医疗(600587)发...
2026年香港IPO市场呈现显... 来源:中国新闻网 中新社香港2月6日电 (记者 戴小橦)踏入2026年,香港IPO市场呈现显著的扩容...
林园出手!政策送暖!A股“喝酒... 尚扬 近期,白酒、中药板块在政策利好与市场资金共振下迎来修复,白酒 “喝出涨停潮”、中药 “吃来估值...
马斯克又干逆天事,核电站级算力... 黄仁勋早几年在行业峰会上的一句大实话,现在成了AI圈的神预言:“AI算力拼到最后,本质就是在拼能源。...
CEO换人、利润不及预期,支付... 利润和营收不及预期,股价应声下跌——日前,国外科技支付巨头 PayPal 交出了一份让市场有所失望的...
重庆发布20亿元产业基金 涉空... 来源:中国新闻网 中新网重庆2月6日电 (张旭)2月6日,重庆市举办“生态赋能 智绘低空”低空经济重...
君乐宝递交港交所主板上市申请,... 据香港联交所1月19日披露信息,君乐宝乳业集团股份有限公司已正式向港交所主板提交上市申请。根据招股说...
什么信号?78公斤黄金被连夜秘... *此图由AI生成 作者| 史大郎&猫哥 来源| 是史大郎&大猫财经Pro “黄金大道”,一夜清空。...
百事宣布多款零食在北美市场降价 (央视财经《天下财经》)近日,美国百事公司宣布将下调包括乐事薯片等多款零食在北美市场的建议零售价,降...
网传雷军、梁文锋、王兴兴将亮相... 马年春晚尚未公布正式节目单,但一张网传节目单已在社交平台引发热议。 名单显示,小米集团创始人雷军、...
AI将导致码农失业?资深程序员... 出品 | 搜狐科技 作者 | 梁昌均 程序员是AI时代自己的掘墓人,这句话可能正因AI编程的快速进化...
房价大局已定?未来60%的中国... 这两年,关于房价的讨论明显变少了。不是大家不关心,而是情绪慢慢从“每天盯着涨跌”变成了“更多想想自己...
IVD自测产品CE注册经验分享 一、定义与分类 1. 概念界定 自我测试(Self-testing)是指主要由非专业人士(如患者或...
高秉强教授,又一个IPO要来了 来源:猎云精选,文/王非 高秉强IPO军团,再添一员大将。 1月28日,AI芯片研发商合肥酷芯微电子...