对话原力灵机唐文斌：我不喜欢讲我不信的话，也无法成为我不想成为的人_资讯

对话原力灵机唐文斌：我不喜欢讲我不信的话，也无法成为我不想成为的人

创始人

2026-03-30 15:12:58

0次

文｜富充

编辑｜苏建勋

创业满一年，唐文斌的身上依旧保留着旷视时期的印记，在和我们的对话中，他时常说到“本质”这个词——那是旷视内部的一个“流行词”。

清华“姚班”毕业之后，唐文斌和同学印奇、杨沐在2011年创办了旷视科技。在这家AI 1.0标志性企业中，人们喜欢追问“本质”。

创业旷视的14年里，唐文斌经历了AI 1.0浪潮的完整起伏。从高歌猛进的业务扩展，到屡次与上市失之交臂，这些经历也打磨着他对“本质”的理解。

关于对旷视最重要的反思，唐文斌认为是摊子不要铺得太大，而是应该先集中全力，把一个最有优势的业务做透。

近来履新阶跃星辰董事长的印奇，在不久前的采访中也有过类似表达——商业模式本质上是做排除法。看过了热闹，大家更清楚一个道理：与其做很多事，不如想清楚什么不做。

2025年3月，唐文斌创办具身智能公司原力灵机。二次创业中，唐文斌更会做减法了。

过去一年中，原力灵机没有跟业界一起卷订单规模，也没有急着推出一个“软硬全栈”的故事提升估值。

原力灵机的第一年，把主要精力放在模型开发，以及数据、框架、评测等AI基础设施工作上。因为在唐文斌看来，这些是决定迭代效率的基础。

“一直跑在前面”的迭代能力，和“短暂的领先”相比，是更本质的竞争力。

当被问及会不会因为节奏“慢”，而受到投资人压力时，唐文斌对《智能涌现》说：“有些公司确实通过一些浮夸的方式获得了不错的收益，我们也困惑过，要不要也这样做。但后来想明白了，我不是很喜欢讲我不信的话，也无法成为我不想成为的人。”

他把自己这些年的变化概括成三个阶段：“初生牛犊不怕虎”的盲目自信，被现实教育后“觉得很多事情不知道怎么做”的迷茫，以及如今抵达的“谦虚的自信”——知道自己知道什么，也非常清楚自己不知道什么。

用AGI通用机器人开启生产力极大富足的时代，是唐文斌当下心中的星辰大海。不过，这一次的落点更脚踏实地：随着模型能力提升逐个解锁场景，先把自己在旷视时期就有积累的物流业务做到商业闭环。

以下是唐文斌与《智能涌现》的对话，内容经作者整理。

△原力灵机CEO唐文斌，图片：采访人提供

创业第一年，关键词：迭代

智能涌现：回顾原力灵机创业这一年，你脑子里冒出来的第一个词是什么？

唐文斌：迭代。过去一年里，很多东西都在变——技术认知、数据方案、场景选择、融资节奏等等。和历史上的经验一样，具身智能的变化也比我们预想的要快。

我们今天面对的，依然是一个充满未知的领域。在今天的具身智能行业里，一家公司本质的竞争力，不是今天有多领先，而是迭代效率有多高。谁能在变化中更快地发现问题、修正问题，谁才可能一直跑在前面。

智能涌现：原力灵机的主创团队来自旷视，经过旷视十多年的创业经历，你仍然觉得当下的创业有很多意料之外的变化吗？

唐文斌：是的，即便我们从AI 1.0时代积累了很多经验教训。

旷视时期我们逐渐解决了计算机视觉、自动驾驶、大模型等领域的问题，到现在进入具身智能领域。每一次身处其中的时候，我们并不知道明确的路线是什么，但历史上每一次的感悟都是，技术变化的频率比我们预期中更快。

对于现在我们所投入的具身行业也是一样，我们依然在解决很多未知的问题，这需要我们快速迭代自己的想法。

智能涌现：再次创业，你还会有兴奋感吗？如果有的话，从何而来？

唐文斌：我觉得无论在旷视还是现在做机器人的创业，都是在“把这个世界应该被解决的问题做得更好”。这也是我们所说的工程师的兴奋感，叫“我能解决这个问题”。

从旷视时期，我就形成了一套朴素的观念，叫做“技术信仰，价值务实。简单来说，我们没有创造新需求，如果创造一个居家做情感陪伴的机器人，这相当于创造了一个新需求。但我们目前在做的事情，而是用更好的工具解决已有问题，比如让机器人去解决、替换原来工业场景里人类做起来繁杂、危险的工作。

智能涌现：这可能是一个非常务实的定位，但是听起来会不会没那么“性感”？

唐文斌：我觉得要看怎么定义“性感”。我认为今天我们不管在生活和生产的过程中，我们有大量的问题可以有更好的解法。解决好这些客观存在的问题是可以产生巨大价值的，无论是商业价值、社会价值，还是用户价值等等。

如果真的创造出了AGI通用机器人，人类会进入一个生产力极大富足的时代。这种很高的技术期待本身，就是一种星辰大海式的愿景。

找好场景，解开“数据死锁”

智能涌现：现阶段，具身智能的本质问题，你觉得是什么？

唐文斌：是模型，模型能力够强，才能解锁场景，而模型的突破点在数据。

数据本质上是在消灭不确定性，真正有价值的是Outlier的数据。你只有让机器人进到真实场景，它才有机会犯错，见到更多“错题”，减少不确定性。

智能涌现：关于数据采集，现在有很多方法，既有数采工厂，也有很多具身公司开发素材手套、胸前摄像头等让人类在实际工作采集数据。你们的采集方法如何？没有自己开发数采工具吗？

唐文斌：我们也有自己的数采工具，也买外面的数采工具和数据。但工具是方法，这些解决方法不本质。

本质的做法，还是要让机器人在真实场景中把数据飞轮转起来，收集到Failure Case。就像今天自动驾驶的数据，平稳运行的数据并不稀缺，真正有价值的是接管的数据，就是自动驾驶算法不Work时的数据，才是AI真正要去学的东西。

现在采用的无论是遥操作还是以为人中心的视频、数采手套等方法，实际上是在模拟场景，但它并不是收集机器人真实和物理世界交互的工作场景数据。也就是说，通过这样的数据，开发者并不知道机器人靠今天的逻辑，到底在什么地方会犯错。

智能涌现：不进场景就没有你说的Outlier数据，没有多样的数据就训不出一个能进场景干活的好模型——这是一个“死锁”。这个死锁怎么解开？

唐文斌：要找到适合当前机器人能力的场景。现阶段，我们要把机器人当成学徒工，而不是期望很高的正式工。

我们总结了几个找场景的条件：第一，容错——犯错后果不严重，或者有人兜得住；第二，对节拍有容忍度——机器人现在完成任务的时长不固定，但如果完成得慢，任务流程也不会因此崩溃；第三，长时间作业——否则客户采购的性价比算不过来；第四，能泛化，如果任务太专用，非标自动化基本就搞定了。

智能涌现：你说现在原力灵机主要在做物流场景？是因为它更容错吗？

唐文斌：物流表面上看不容错，比如你买瓶可乐，没发给你，这就是错了，客户会投诉的。但物流有很多流程环节，可以通过系统设计变成容错：让机器人先干，失败了人再接管上。

而且物流的节拍要求没那么强，一天大概有两到三个波次。完成着两三个波次就可以，至于到底是9点干完，还是10点干完，不对整体造成太大影响。

智能涌现：所以你在场景上的策略是“沿途下蛋”？

唐文斌：我的模型最终是追求通用能力，并不是说我是朝着某个场景去的，只是在模型能力提升的过程中会逐渐解锁一些场景。

所以，比起沿途下蛋，我更喜欢形容当前的模型和场景是个“夹角关系”。横轴是场景，斜着向上的这条射线是模型能力，两者不是完全分开的，也不是一开始就重合的。只是随着模型越来越强，它能覆盖的场景会越来越多，这个夹角会越来越小，最后趋向一致。

△唐文斌在黑板上画起模型能力与场景解锁的“夹角图”。横轴是场景，斜着向上的射线是模型能力，模型能力的提升，最终会落地在场景上。图片：作者拍摄

“软硬全栈”不是衡量估值的本质问题

智能涌现：旷视时期，你就聚焦物流场景，做原力灵机之后再输出给客户的方案、产品会有不同吗？

唐文斌：简单而言，无论是我们当年在旷视做的物流机器人业务，还是现在很多同行在做的方案，本质上解决的都还是“搬运”的问题。也就是说，机器人主要替代的是人的“腿”。

但真正更复杂的“手上动作”，其实一直没有被很好解决。比如抓取、拣选、拿起、放下、打包，这些都还大量依赖人工。我们现在做原力灵机，更希望让模型逐步具备处理这些手部操作的能力，再和现有系统联动起来，形成一整套方案。

智能涌现：那原力灵机自己会做“手”的硬件吗？

唐文斌：“手”其实是个广义的概念，我们叫末端执行器。两指的夹爪是一种，三指是一种，四指、五指也都是。

我不认为一种构型可以吃遍所有场景，有一些场景，用三指手就可以完成任务，成本还比五指手便宜。所以比做不做手更本质的是，要明确自己服务的场景，真正需要的是什么。

智能涌现：如果没有自己研发硬件，或者如果不是所谓的“软硬一体”全栈公司，会不会影响估值？

唐文斌：我觉得这不是本质问题。做不做硬件本质上都只是手段，关键还是看你想解决什么问题。

如果某个硬件环节和我们的核心结构设计、产品主线强相关，而且现成供应链满足不了需求，那我们当然会考虑自己做；但如果外部厂商愿意配合定制，能够满足我们的要求，那我也没有必要什么都亲自下场。毕竟公司最宝贵的精力，还是应该放在更有差异化的地方。

所以核心不在于“你是不是一定要自己做”，而在于你有没有自己做的能力。如果你完全没有这个能力，就很容易被供应链拿捏。但如果你具备自己做的能力，就可以主动选择——哪些该自己做，哪些可以交给合作伙伴。就像苹果公司，也不是自己生产。

最好的具身智能模型，应该从Day 1就接触物理世界数据

智能涌现：你们在DM0发布会上，强调这是“具身原生模型”，还和阶跃星辰做了数据融合训练。这算你们的“非共识”吗？

唐文斌：与其说非共识，不如说这是别人做不了的事。

我们觉得最好的具身智能模型应该从Day 1就开始接触物理世界的数据。互联网数据、自动驾驶数据、机器人数据，三类数据混在一起训，模型的上限会更高。

但三类数据在不同公司手里——互联网公司、自动驾驶公司、机器人公司。只有特斯拉、小米等少数大型公司才会同时拥有这三类数据。

我们能做，是因为和阶跃星辰恰好是有底层信任。这不只是技术问题，需要合作公司之间有数据定价、资产归属、算力分摊等方面的深度信任。

△原力灵机DM0模型包含互联网、自动驾驶、具身三类数据的多源混合训练，图片：采访人提供”

智能涌现：为什么最好的具身智能模型，应该从Day 1就接触物理世界数据

唐文斌：你可以先把模型想象成一个初中毕业生，接受了九年制文化课，然后被拉去练三年体育，要变成“体校生”。这个学生没有从小练体育，体能上限有限；狂练三年体育之后，文化课又落下了。所以最后得到的，通常是一个上限不高的体校生。

回归到数据上，问题是这样的，今天行业里大多数具身模型，本质上还是先拿一个开源的VLM模型做底座，相当于一开始接触的主要是互联网数据；然后再加入动作数据，微调成一个VLA。

这样做，一方面会限制模型在真实世界中的能力上限，另一方面也容易在后期训练中出现“偏科”——为了强化动作能力，反而损失了一部分原本的通用理解能力。

所以我们更认同一种“具身原生”的训练方式：从 Day 1 开始，模型就应该见过足够多的物理世界数据。

智能涌现：现在行业里经常把VLA、世界模型这些能力拆开来讲，或者认为世界模型要替代VLA。你们怎么理解它们的关系？

唐文斌：我们认为，世界模型和VLA应该是一套统一的架构，而不是谁替代谁。

现在很多人的思路是：一个世界模型负责预测“接下来世界会变成什么样”，另一个VLA或策略模型负责决定“我应该做什么动作”。但我们的理解不一样——更好的方式，是在同一个框架里同时完成这两件事：它既在预测动作，也在预测这个动作之后世界会发生什么变化。

因为物理世界本来就是有因果关系的。比如你伸手去抓一个物体时，脑子里其实已经对它的重量、抓取方式和需要多大力形成了预期；但真正抓上去那一刻，如果发现它比预想中更重，你就会立刻根据触觉和受力反馈调整动作。这个过程中，你对世界的理解和你的动作决策，本来就是一体的。

我们理解的世界模型也是这样。它不应该只是一个“预测下一帧画面”的视觉模型，而应该和VLA融合在一起，形成一套统一的训练框架。这里面还需要多模态信息，比如上面例子中所说的触觉（力反馈），也需要有Memory，才能把任务真正做完整。

这也是为什么我们一直强调，具身智能模型最好从Day 1开始就接触物理世界数据——它要学的不是孤立的动作，而是动作、反馈和世界变化之间的完整因果关系。

智能涌现：你们联合Hugging Face发起了RoboChallenge这个具身模型的真机Benchmark，也引起了业内对原力灵机“又做裁判又做选手”的争议。所以，在你看来做评测的必要性是什么？

唐文斌：其实评测是非常重要的。我们内部有一句话说叫，如果你花了50块钱，这个模型应该花20块钱去评测一下它。否则如果你自己都不知道如何衡量他的好坏，我们先不说衡量大家，我们就先衡量自己，如果都没有这根尺子。你如何能够把这事儿做好？

△“RoboChallenge最新评测榜单（截至2026年3月30日），图片：采访人提供”

智能涌现：如果你的模型真的好，最后客户买单了，这不是一种更实际的Benchmark吗？

唐文斌：对，但这个反馈周期很长。而且，其实今天客户买单，可能是出于很多种原因。客户不买单的模型，大概率不是一个好模型；但好模型不一定会得到客户的订单。

以及当前可能模型在某个场景能力很强，但如果想考察它通用场景中的泛化能力，那还是需要一个Benchmark评测。

务实与做自己

智能涌现：你们在今年2月10日，成立近一年的时候，才正式发布了第一款模型。和行业普遍节奏比，会不会有点“慢”？

唐文斌：我觉得今天的一些短暂的领先并不本质，比如别人一成立就发布了模型，或者DM0目前在Benchmark上的表现比较好。但当前的领先还说明不了什么，过两天可能就被追上了。

现在的本质是因为很多东西都在变化，真正重要的是迭代效率——你内部能不能更快地发现问题、解决问题。如果迭代效率比别人高，你就能一直跑在前面。

智能涌现：你曾经说具身智能的“ChatGPT时刻”是，“一个场景1000台机器人，持续运行”。这个标准怎么来的？

唐文斌：一个场景1000台持续运行，意味着两件事。第一是业务流程闭环了，不用人过多参与的情况下，机器人也可以持续完成任务；第二是，账算明白了，客户愿意批量化使用。

达到这个水平，才能说是真正地被客户用起来了。

智能涌现：所以现在有真实的具身智能持续运行的场景吗？

唐文斌：持续运行的商业化场景其实都没那么快。我觉得大家对场景还是要有一定的耐心。但我觉得今年，最晚明年，至少在一线场景上，会出现真的商业化。

智能涌现：那你怎么看待当下具身行业里，那些“客户采购具身智能公司的机器人组建数据采集工厂，又将采集的数据卖给机器人公司”，从而做大收入流水的现象？

唐文斌：这实际上是一种“循环收入，我不能说这些做法不对，这些企业确实获得了收入。但公司要想清楚自己的价值导向，如果你的销售成天在干循环收入，谁还愿意干那些真正难的事情？

智能涌现：你现在对做To C的产品有想法吗？

唐文斌：最终会做。但To C比To B难得多。To C最终有两种，一种是做玩具，一种是做工具。现在具身智能To C还是在做玩具的阶段，工具现在还有阶段性的，没到那个技术点上。

在C端，一个机器人通常要会干很多件事情，用户才觉得有用。但在B端，它只要干好一件事，就能持续创造价值。而且C端对成本更敏感，对错误容忍度更低。

所以还是先从B端开始，等模型能力足够强，成本降下来，再想C端的事。

创业十年：愚昧之巅、绝望之谷、自信的平常心

智能涌现：从业务本身来讲，现在和十年前在旷视时，差异点是什么？

唐文斌：旷视当时做了好几个不同的业务，觉得技术可达，市场也可达，就都去做了。但结果是人才稀释了，最强的那些人被摊薄了。

这回到创业公司经常被问到的一个问题“如果大厂干了这件事情你怎么办呢？”。但实际上大厂并不是举公司之力在干一件事情，而创业公司可以。

我的体会是，max(A+B+C)基本上等于max(A,B,C)。就是说，把多个能力简单叠加，效果不会超过把最强的那一个做到极致。

智能涌现：你当下在企业管理中，最不能接受的现象是什么？

唐文斌：我们现在还比较强调开放和谦逊。我觉得我比较不想看到的，是一种叫自负，就是Ego很大的情况。

当然，作为创业公司，一旦做好决策，还是要坚决贯彻执行。但在此之前，观点是要被允许开放讨论的。我觉得今天这个世界变化太快了，大家的智慧、开放的心态是能够更好迭代的基础。

智能涌现：你觉得现在的自己，和十年前在旷视时有什么不同？

唐文斌：十年前刚创业的时候，很多东西不懂，是一种“初生牛犊不怕虎”的状态，觉得自己什么都行。后来被现实教育了，又走向另一个极端——不自信，觉得很多事情不知道怎么做。

再后来，试错多了，慢慢回到一种自信的平常心，不是盲目的自信，也不是胆怯的不自信。

上一篇：企业级AI服务商格物见微完成数千万元天使轮融资，顺为领投，落地能源、金融行业

下一篇：RealFlow：新加坡实流基金会与香港实流科技协同发力，重塑消费资产化新纪元！

对话原力灵机唐文斌：我不喜欢讲我不信的话，也无法成为我不想成为的人

相关内容

热门资讯