消费级显卡就能跑!雷军公布小米机器人最新进展:真机运行画面首曝
创始人
2026-02-12 17:10:39
0

快科技2月12日消息,小米又憋了个大的。

今天,雷军亲自在微博放出重磅消息,小米机器人团队正式发布并开源全新具身智能VLA模型 ——Xiaomi-Robotics-0,真机运行画面首次对外曝光

这不是一次普通的技术更新,而是小米在机器人领域的一次关键破局。47亿参数规模、兼具视觉语言理解与高性能实时执行能力,在三大主流仿真测试中横扫行业标杆,拿下全项SOTA(State-of-the-Art,即当前公开可验证的最先进、最高水平),更在真实机器人上实现流畅动作。

而最具颠覆性的是,它能在普通消费级显卡上实现实时推理,直接打破了高端机器人模型 “只能实验室跑、普通人用不起” 的魔咒,这也是其区别于同类产品的核心亮点之一。

很多人好奇,现在的机器人模型,到底卡在哪了?

行业里藏着两个多年未解决的核心痛点:

第一,推理延迟高、动作不连贯:传统 VLA(Vision-Language-Action,视觉 - 语言 - 动作)模型虽然参数规模可圈可点、泛化能力较强,但在真实物理世界中,庞大的推理延迟让机器人像 “延迟卡顿的木偶”,动作断断续续,根本没法像人一样自然操作,被网友调侃为 “反应迟钝的木头人”;

第二,硬件门槛极高:稍微具备高性能的模型,必须依赖昂贵的专业显卡才能正常运行,普通开发者、小团队根本碰不起,导致先进技术只能被锁在实验室,无法落地普及。

在此基础上,还有一个普遍难题。不少模型 “仿真测试成绩好看,一上真机就拉胯”,无法在现实世界里稳定完成叠毛巾、拆积木这类真实物理任务,形成理论与实操脱节的尴尬。而小米这次的 Xiaomi-Robotics-0,就是冲着解决这些行业顽疾来的。

官方明确表态:“今天,我们对外发布:Xiaomi-Robotics-0。这是一个拥有 47 亿参数、兼具视觉语言理解与高性能实时执行能力的开源 VLA 模型。它不仅在三大主流的仿真测试中获得优异成绩,更在现实真机任务中实现了物理智能的泛化 —— 动作连贯、反应灵敏,且能在消费级显卡上实现实时推理”。

这句话精准概括了模型的核心优势,尤其要强调,不用高端计算设备,不用斥巨资购买专业显卡,普通消费级显卡就能让它稳定跑起来,这也是小米此次最具突破性的成果之一,直接拉低了具身智能技术的落地门槛。

能做到这一点,核心是小米自研的Mixture-of-Transformers(MoT)混合架构,通俗说就是给机器人装了 “双脑协同系统”,兼顾决策与执行效率。

一个是视觉语言大脑(VLM),负责听懂人话、看懂环境,哪怕是 “把毛巾叠好” 这种模糊指令,也能精准理解空间关系和任务目标,保留了VLM本身的多模态理解能力,这是此前很多VLA 模型所不具备的优势;

另一个是动作执行小脑(DiT),专门负责把指令变成丝滑动作,生成连续流畅的 “动作块”,再通过流匹配技术保证精准稳定,让机器人告别机械卡顿,动作接近人类的灵活度,从根源上解决了传统模型动作断层的痛点。

为了让机器人既聪明又能干”,团队还设计了两阶段训练方案。

先通过跨模态预训练,让模型在学动作的同时,不丢失物体识别、视觉问答等基础能力,避免 “练了手工、废了脑子”,同时通过 Action Proposal 机制让VLM的特征空间与动作空间对齐,为后续实操打下基础。

再通过后训练优化,用异步推理模式从机制上解决真机 “动作断层” 问题,搭配 Clean Action Prefix 让动作轨迹连续不抖动,通过 Λ-shape Attention Mask 让机器人聚焦当前视觉反馈、摆脱历史惯性,哪怕环境有小变化,也能即时调整,大幅提升环境适配能力。

分拣不同颜色的积木

将大块积木逐步拆成小块

将毛巾摊平-叠好

主动将多余毛巾放回以进行叠放

从这次曝光的真机视频里就能直观感受到,处理毛巾这种软塌塌的柔性物体,它会先铺平、再对折、整理整齐,多余的毛巾还会主动放回原位。

面对刚性积木,它能一步步稳妥拆解,手眼协调极其稳定,不会出现卡顿或失误。不管是软质材料还是硬质物件,都能从容完成,这就是物理智能真正落地的直观表现,也是小米此次突破的核心价值所在。

在 Libero、Calvin、SimplerEnv 三大全球主流具身智能测试集里,Xiaomi-Robotics-0 对标超过 30 款主流模型,在所有基准测试中全部拿下SOTA,用实打实的数据坐稳行业第一梯队,真正实现了 “仿真通、真机强、多模态能力不丢失” 的突破。

比技术更强的是小米的格局:这次成果直接全量开源—— 技术主页、GitHub开源代码、Hugging Face模型权重全部公开,全球开发者都能免费使用、二次开发,相关资源可在各大平台直接获取,彻底打破了大厂对具身智能核心技术的垄断。

这意味着,原本高高在上的具身智能技术,第一次真正向行业敞开大门,不再是大厂专属玩具,普通开发者也能参与其中,加速整个行业的技术迭代。

雷军也在微博中透露,小米早已深度布局机器人赛道,目前仍在全球招募顶尖人才,团队还在持续冲刺下一代技术,此次发布的 Xiaomi-Robotics-0 只是阶段性研究成果,未来还会有更多突破。

当机器人不再是卡顿的演示道具,而是动作流畅、反应灵敏,还能在消费级硬件上轻松跑起来的真实产品,那个 “家用机器人走进千家万户” 的未来,真的离我们越来越近了。

相关内容

热门资讯

云脉芯联获B轮投资 2026年5月7日,数据中心网络芯片研发商上海云脉芯联科技有限公司(简称“云脉芯联”)宣布完成B轮融...
城势观察丨东莞GDP首超佛山,... 近日,东莞、佛山相继公布2026年一季度经济数据:2026年一季度,东莞GDP3098.77亿元,按...
人民币,涨破关键点位 伴随强势资本市场“东风”,人民币汇率表现势如破竹,站稳了重要关口。 5月7日,离岸人民币对美元强势涨...
科技题材持续发力 创业板指创逾... PEEK材料概念日K线图   张大伟 制图 ◎记者 费天元 5月7日,A股市场延续强势表现,AI硬件...
被指庞氏骗局!白酒寄售平台长城... “4月初左右大量的人抛售(白酒)订单,没有人承接订单,订单就变成了券,也没法提出,长城易趣App也打...
五矿资本:各子公司多举措转型发... 来源:问董秘 投资者提问: 贵公司请具体介绍一下未来会在哪些领域带来创收和盈利。 董秘回答(五矿资本...
21评论丨全球油价波动或将加剧 来源:21世纪经济报道 林伯强(厦门大学管理学院讲席教授,中国能源政策研究院院长) 近日,阿联酋宣布...
2026年电商行业有哪些age... 2026年,AI Agent正从概念走向深度商用,成为电商行业数智化转型的核心引擎。在这一浪潮下,瓴...
香港与内地买房差距有多离谱?看... 很多人第一次认真比较香港和内地楼市时,都会有一种很强烈的反差感:同样是买房,背后的逻辑却完全不同。 ...
标普500指数的11个板块多数... 标普500指数的11个板块多数收跌,原材料板块收跌1.83%,能源板块跌1.78%,电信板块、信息技...
不再“一股脑”消费的背后,谁来... 与以往“遇事才买”的冲动式决策不同,如今消费者更倾向于把保险当作一项需要精打细算的家庭资产配置——对...
俞浩的万亿赌局:一个人,十余个... 如果你最近打开社交媒体,大概率刷到过俞浩。 一天117条视频,全员矩阵账号铺满评论区,从扫地机讲到机...
原创 马... 马斯克在德州超级工厂接受访谈的时候,抛出三大直指普通人命运的 AI 预言,引发广泛讨论。下文将逐一拆...
大跌超7%!“破面”转债,再添... 在近期权益市场震荡走强的背景下,部分转债却接连大跌,甚至跌破面值。 5月7日,美锦转债盘中一度大跌超...
世纪AI诉讼持续爆猛料,Ope... 出品|虎嗅科技组 作者|赵致格 编辑|苗正卿 头图|视觉中国 4月27日,马斯克起诉OpenAI一案...
原创 金... 三月最后一个交易日,北京某券商营业部内,一位金发苍苍的大妈望着手机屏幕,无奈地叹息:“年前买的金子,...
五一消费图鉴:低通胀年代,所有... 文 | 财经无忌 山核桃 今年五一,被一股“不确定性”笼罩:收缩的音乐节、被点名批评的5A景区、受...
永成双海(832181):新设... 永成双海(832181):新设控股子公司已在新加坡注册成立 每经讯,永成双海5月7日发布公告称,公司...
恒科狂飙超3%重回5000点!... 5月7日,恒生科技指数大涨超3%,重回5000点。 权重科技股集体走强,其中快手涨幅领先,涨超7%,...