文|富充
编辑|苏建勋
创业满一年,唐文斌的身上依旧保留着旷视时期的印记,在和我们的对话中,他时常说到“本质”这个词——那是旷视内部的一个“流行词”。
清华“姚班”毕业之后,唐文斌和同学印奇、杨沐在2011年创办了旷视科技。在这家AI 1.0标志性企业中,人们喜欢追问“本质”。
创业旷视的14年里,唐文斌经历了AI 1.0浪潮的完整起伏。从高歌猛进的业务扩展,到屡次与上市失之交臂,这些经历也打磨着他对“本质”的理解。
关于对旷视最重要的反思,唐文斌认为是摊子不要铺得太大,而是应该先集中全力,把一个最有优势的业务做透。
近来履新阶跃星辰董事长的印奇,在不久前的采访中也有过类似表达——商业模式本质上是做排除法。看过了热闹,大家更清楚一个道理:与其做很多事,不如想清楚什么不做。
2025年3月,唐文斌创办具身智能公司原力灵机。二次创业中,唐文斌更会做减法了。
过去一年中,原力灵机没有跟业界一起卷订单规模,也没有急着推出一个“软硬全栈”的故事提升估值。
原力灵机的第一年,把主要精力放在模型开发,以及数据、框架、评测等AI基础设施工作上。因为在唐文斌看来,这些是决定迭代效率的基础。
“一直跑在前面”的迭代能力,和“短暂的领先”相比,是更本质的竞争力。
当被问及会不会因为节奏“慢”,而受到投资人压力时,唐文斌对《智能涌现》说:“有些公司确实通过一些浮夸的方式获得了不错的收益,我们也困惑过,要不要也这样做。但后来想明白了,我不是很喜欢讲我不信的话,也无法成为我不想成为的人。”
他把自己这些年的变化概括成三个阶段:“初生牛犊不怕虎”的盲目自信,被现实教育后“觉得很多事情不知道怎么做”的迷茫,以及如今抵达的“谦虚的自信”——知道自己知道什么,也非常清楚自己不知道什么。
用AGI通用机器人开启生产力极大富足的时代,是唐文斌当下心中的星辰大海。不过,这一次的落点更脚踏实地:随着模型能力提升逐个解锁场景,先把自己在旷视时期就有积累的物流业务做到商业闭环。
以下是唐文斌与《智能涌现》的对话,内容经作者整理。
△原力灵机CEO唐文斌,图片:采访人提供
创业第一年,关键词:迭代
智能涌现:回顾原力灵机创业这一年,你脑子里冒出来的第一个词是什么?
唐文斌:迭代。过去一年里,很多东西都在变——技术认知、数据方案、场景选择、融资节奏等等。和历史上的经验一样,具身智能的变化也比我们预想的要快。
我们今天面对的,依然是一个充满未知的领域。在今天的具身智能行业里,一家公司本质的竞争力,不是今天有多领先,而是迭代效率有多高。谁能在变化中更快地发现问题、修正问题,谁才可能一直跑在前面。
智能涌现:原力灵机的主创团队来自旷视,经过旷视十多年的创业经历,你仍然觉得当下的创业有很多意料之外的变化吗?
唐文斌:是的,即便我们从AI 1.0时代积累了很多经验教训。
旷视时期我们逐渐解决了计算机视觉、自动驾驶、大模型等领域的问题,到现在进入具身智能领域。每一次身处其中的时候,我们并不知道明确的路线是什么,但历史上每一次的感悟都是,技术变化的频率比我们预期中更快。
对于现在我们所投入的具身行业也是一样,我们依然在解决很多未知的问题,这需要我们快速迭代自己的想法。
智能涌现:再次创业,你还会有兴奋感吗?如果有的话,从何而来?
唐文斌:我觉得无论在旷视还是现在做机器人的创业,都是在“把这个世界应该被解决的问题做得更好”。这也是我们所说的工程师的兴奋感,叫“我能解决这个问题”。
从旷视时期,我就形成了一套朴素的观念,叫做“技术信仰,价值务实。简单来说,我们没有创造新需求,如果创造一个居家做情感陪伴的机器人,这相当于创造了一个新需求。但我们目前在做的事情,而是用更好的工具解决已有问题,比如让机器人去解决、替换原来工业场景里人类做起来繁杂、危险的工作。
智能涌现:这可能是一个非常务实的定位,但是听起来会不会没那么“性感”?
唐文斌:我觉得要看怎么定义“性感”。我认为今天我们不管在生活和生产的过程中,我们有大量的问题可以有更好的解法。解决好这些客观存在的问题是可以产生巨大价值的,无论是商业价值、社会价值,还是用户价值等等。
如果真的创造出了AGI通用机器人,人类会进入一个生产力极大富足的时代。这种很高的技术期待本身,就是一种星辰大海式的愿景。
找好场景,解开“数据死锁”
智能涌现:现阶段,具身智能的本质问题,你觉得是什么?
唐文斌:是模型,模型能力够强,才能解锁场景,而模型的突破点在数据。
数据本质上是在消灭不确定性,真正有价值的是Outlier的数据。你只有让机器人进到真实场景,它才有机会犯错,见到更多“错题”,减少不确定性。
智能涌现:关于数据采集,现在有很多方法,既有数采工厂,也有很多具身公司开发素材手套、胸前摄像头等让人类在实际工作采集数据。你们的采集方法如何?没有自己开发数采工具吗?
唐文斌:我们也有自己的数采工具,也买外面的数采工具和数据。但工具是方法,这些解决方法不本质。
本质的做法,还是要让机器人在真实场景中把数据飞轮转起来,收集到Failure Case。就像今天自动驾驶的数据,平稳运行的数据并不稀缺,真正有价值的是接管的数据,就是自动驾驶算法不Work时的数据,才是AI真正要去学的东西。
现在采用的无论是遥操作还是以为人中心的视频、数采手套等方法,实际上是在模拟场景,但它并不是收集机器人真实和物理世界交互的工作场景数据。也就是说,通过这样的数据,开发者并不知道机器人靠今天的逻辑,到底在什么地方会犯错。
智能涌现:不进场景就没有你说的Outlier数据,没有多样的数据就训不出一个能进场景干活的好模型——这是一个“死锁”。这个死锁怎么解开?
唐文斌:要找到适合当前机器人能力的场景。现阶段,我们要把机器人当成学徒工,而不是期望很高的正式工。
我们总结了几个找场景的条件:第一,容错——犯错后果不严重,或者有人兜得住;第二,对节拍有容忍度——机器人现在完成任务的时长不固定,但如果完成得慢,任务流程也不会因此崩溃;第三,长时间作业——否则客户采购的性价比算不过来;第四,能泛化,如果任务太专用,非标自动化基本就搞定了。
智能涌现:你说现在原力灵机主要在做物流场景?是因为它更容错吗?
唐文斌:物流表面上看不容错,比如你买瓶可乐,没发给你,这就是错了,客户会投诉的。但物流有很多流程环节,可以通过系统设计变成容错:让机器人先干,失败了人再接管上。
而且物流的节拍要求没那么强,一天大概有两到三个波次。完成着两三个波次就可以,至于到底是9点干完,还是10点干完,不对整体造成太大影响。
智能涌现:所以你在场景上的策略是“沿途下蛋”?
唐文斌:我的模型最终是追求通用能力,并不是说我是朝着某个场景去的,只是在模型能力提升的过程中会逐渐解锁一些场景。
所以,比起沿途下蛋,我更喜欢形容当前的模型和场景是个“夹角关系”。横轴是场景,斜着向上的这条射线是模型能力,两者不是完全分开的,也不是一开始就重合的。只是随着模型越来越强,它能覆盖的场景会越来越多,这个夹角会越来越小,最后趋向一致。
△唐文斌在黑板上画起模型能力与场景解锁的“夹角图”。横轴是场景,斜着向上的射线是模型能力,模型能力的提升,最终会落地在场景上。图片:作者拍摄
“软硬全栈”不是衡量估值的本质问题
智能涌现:旷视时期,你就聚焦物流场景,做原力灵机之后再输出给客户的方案、产品会有不同吗?
唐文斌:简单而言,无论是我们当年在旷视做的物流机器人业务,还是现在很多同行在做的方案,本质上解决的都还是“搬运”的问题。也就是说,机器人主要替代的是人的“腿”。
但真正更复杂的“手上动作”,其实一直没有被很好解决。比如抓取、拣选、拿起、放下、打包,这些都还大量依赖人工。我们现在做原力灵机,更希望让模型逐步具备处理这些手部操作的能力,再和现有系统联动起来,形成一整套方案。
智能涌现:那原力灵机自己会做“手”的硬件吗?
唐文斌:“手”其实是个广义的概念,我们叫末端执行器。两指的夹爪是一种,三指是一种,四指、五指也都是。
我不认为一种构型可以吃遍所有场景,有一些场景,用三指手就可以完成任务,成本还比五指手便宜。所以比做不做手更本质的是,要明确自己服务的场景,真正需要的是什么。
智能涌现:如果没有自己研发硬件,或者如果不是所谓的“软硬一体”全栈公司,会不会影响估值?
唐文斌:我觉得这不是本质问题。做不做硬件本质上都只是手段,关键还是看你想解决什么问题。
如果某个硬件环节和我们的核心结构设计、产品主线强相关,而且现成供应链满足不了需求,那我们当然会考虑自己做;但如果外部厂商愿意配合定制,能够满足我们的要求,那我也没有必要什么都亲自下场。毕竟公司最宝贵的精力,还是应该放在更有差异化的地方。
所以核心不在于“你是不是一定要自己做”,而在于你有没有自己做的能力。 如果你完全没有这个能力,就很容易被供应链拿捏。但如果你具备自己做的能力,就可以主动选择——哪些该自己做,哪些可以交给合作伙伴。就像苹果公司,也不是自己生产。
最好的具身智能模型,应该从Day 1就接触物理世界数据
智能涌现:你们在DM0发布会上,强调这是“具身原生模型”,还和阶跃星辰做了数据融合训练。这算你们的“非共识”吗?
唐文斌:与其说非共识,不如说这是别人做不了的事。
我们觉得最好的具身智能模型应该从Day 1就开始接触物理世界的数据。互联网数据、自动驾驶数据、机器人数据,三类数据混在一起训,模型的上限会更高。
但三类数据在不同公司手里——互联网公司、自动驾驶公司、机器人公司。只有特斯拉、小米等少数大型公司才会同时拥有这三类数据。
我们能做,是因为和阶跃星辰恰好是有底层信任。这不只是技术问题,需要合作公司之间有数据定价、资产归属、算力分摊等方面的深度信任。
△原力灵机DM0模型包含互联网、自动驾驶、具身三类数据的多源混合训练,图片:采访人提供”
智能涌现:为什么最好的具身智能模型,应该从Day 1就接触物理世界数据
唐文斌:你可以先把模型想象成一个初中毕业生,接受了九年制文化课,然后被拉去练三年体育,要变成“体校生”。这个学生没有从小练体育,体能上限有限;狂练三年体育之后,文化课又落下了。所以最后得到的,通常是一个上限不高的体校生。
回归到数据上,问题是这样的,今天行业里大多数具身模型,本质上还是先拿一个开源的VLM模型做底座,相当于一开始接触的主要是互联网数据;然后再加入动作数据,微调成一个VLA。
这样做,一方面会限制模型在真实世界中的能力上限,另一方面也容易在后期训练中出现“偏科”——为了强化动作能力,反而损失了一部分原本的通用理解能力。
所以我们更认同一种“具身原生”的训练方式:从 Day 1 开始,模型就应该见过足够多的物理世界数据。
智能涌现:现在行业里经常把VLA、世界模型这些能力拆开来讲,或者认为世界模型要替代VLA。你们怎么理解它们的关系?
唐文斌:我们认为,世界模型和VLA应该是一套统一的架构,而不是谁替代谁。
现在很多人的思路是:一个世界模型负责预测“接下来世界会变成什么样”,另一个VLA或策略模型负责决定“我应该做什么动作”。但我们的理解不一样——更好的方式,是在同一个框架里同时完成这两件事:它既在预测动作,也在预测这个动作之后世界会发生什么变化。
因为物理世界本来就是有因果关系的。比如你伸手去抓一个物体时,脑子里其实已经对它的重量、抓取方式和需要多大力形成了预期;但真正抓上去那一刻,如果发现它比预想中更重,你就会立刻根据触觉和受力反馈调整动作。这个过程中,你对世界的理解和你的动作决策,本来就是一体的。
我们理解的世界模型也是这样。它不应该只是一个“预测下一帧画面”的视觉模型,而应该和VLA融合在一起,形成一套统一的训练框架。这里面还需要多模态信息,比如上面例子中所说的触觉(力反馈),也需要有Memory,才能把任务真正做完整。
这也是为什么我们一直强调,具身智能模型最好从Day 1开始就接触物理世界数据——它要学的不是孤立的动作,而是动作、反馈和世界变化之间的完整因果关系。
智能涌现:你们联合Hugging Face发起了RoboChallenge这个具身模型的真机Benchmark,也引起了业内对原力灵机“又做裁判又做选手”的争议。所以,在你看来做评测的必要性是什么?
唐文斌:其实评测是非常重要的。我们内部有一句话说叫,如果你花了50块钱,这个模型应该花20块钱去评测一下它。否则如果你自己都不知道如何衡量他的好坏,我们先不说衡量大家,我们就先衡量自己,如果都没有这根尺子。你如何能够把这事儿做好?
△“RoboChallenge最新评测榜单(截至2026年3月30日),图片:采访人提供”
智能涌现:如果你的模型真的好,最后客户买单了,这不是一种更实际的Benchmark吗?
唐文斌:对,但这个反馈周期很长。而且,其实今天客户买单,可能是出于很多种原因。客户不买单的模型,大概率不是一个好模型;但好模型不一定会得到客户的订单。
以及当前可能模型在某个场景能力很强,但如果想考察它通用场景中的泛化能力,那还是需要一个Benchmark评测。
务实与做自己
智能涌现:你们在今年2月10日,成立近一年的时候,才正式发布了第一款模型。和行业普遍节奏比,会不会有点“慢”?
唐文斌:我觉得今天的一些短暂的领先并不本质,比如别人一成立就发布了模型,或者DM0目前在Benchmark上的表现比较好。但当前的领先还说明不了什么,过两天可能就被追上了。
现在的本质是因为很多东西都在变化,真正重要的是迭代效率——你内部能不能更快地发现问题、解决问题。如果迭代效率比别人高,你就能一直跑在前面。
智能涌现:你曾经说具身智能的“ChatGPT时刻”是,“一个场景1000台机器人,持续运行”。这个标准怎么来的?
唐文斌:一个场景1000台持续运行,意味着两件事。第一是业务流程闭环了,不用人过多参与的情况下,机器人也可以持续完成任务;第二是,账算明白了,客户愿意批量化使用。
达到这个水平,才能说是真正地被客户用起来了。
智能涌现:所以现在有真实的具身智能持续运行的场景吗?
唐文斌:持续运行的商业化场景其实都没那么快。我觉得大家对场景还是要有一定的耐心。但我觉得今年,最晚明年,至少在一线场景上,会出现真的商业化。
智能涌现:那你怎么看待当下具身行业里,那些“客户采购具身智能公司的机器人组建数据采集工厂,又将采集的数据卖给机器人公司”,从而做大收入流水的现象?
唐文斌:这实际上是一种“循环收入,我不能说这些做法不对,这些企业确实获得了收入。但公司要想清楚自己的价值导向,如果你的销售成天在干循环收入,谁还愿意干那些真正难的事情?
智能涌现:你现在对做To C的产品有想法吗?
唐文斌:最终会做。但To C比To B难得多。To C最终有两种,一种是做玩具,一种是做工具。现在具身智能To C还是在做玩具的阶段,工具现在还有阶段性的,没到那个技术点上。
在C端,一个机器人通常要会干很多件事情,用户才觉得有用。但在B端,它只要干好一件事,就能持续创造价值。而且C端对成本更敏感,对错误容忍度更低。
所以还是先从B端开始,等模型能力足够强,成本降下来,再想C端的事。
创业十年:愚昧之巅、绝望之谷、自信的平常心
智能涌现:从业务本身来讲,现在和十年前在旷视时,差异点是什么?
唐文斌:旷视当时做了好几个不同的业务,觉得技术可达,市场也可达,就都去做了。但结果是人才稀释了,最强的那些人被摊薄了。
这回到创业公司经常被问到的一个问题“如果大厂干了这件事情你怎么办呢?”。但实际上大厂并不是举公司之力在干一件事情,而创业公司可以。
我的体会是,max(A+B+C)基本上等于max(A,B,C)。就是说,把多个能力简单叠加,效果不会超过把最强的那一个做到极致。
智能涌现:你当下在企业管理中,最不能接受的现象是什么?
唐文斌:我们现在还比较强调开放和谦逊。我觉得我比较不想看到的,是一种叫自负,就是Ego很大的情况。
当然,作为创业公司,一旦做好决策,还是要坚决贯彻执行。但在此之前,观点是要被允许开放讨论的。我觉得今天这个世界变化太快了,大家的智慧、开放的心态是能够更好迭代的基础。
智能涌现:你觉得现在的自己,和十年前在旷视时有什么不同?
唐文斌:十年前刚创业的时候,很多东西不懂,是一种“初生牛犊不怕虎”的状态,觉得自己什么都行。后来被现实教育了,又走向另一个极端——不自信,觉得很多事情不知道怎么做。
再后来,试错多了,慢慢回到一种自信的平常心,不是盲目的自信,也不是胆怯的不自信。