对标GPT-4o,商汤发布“流式多模态大模型”,在国内首燃“人机交互革命”的火种
创始人
2024-07-08 08:36:39
0

文:李然

正在上海举行的世界人工智能大会WAIC,就像是对所有中国大模型公司的一个年中考试。大家都铆足劲,秀出了自己最新的进展。

2023百模大战” 各家都在刷榜比拼大模型的性能参数,在AI 2.0的“应用元年” ,今年各家AI公司都在基于自己对于AI应用和大模型技术理解的“非共识”,希望走出一条自己的破局之道。

在年初的大模型价格战,各家公司把API的价格彻底卷下来之后,似乎大模型市场就很少出现同时针对某一个单点因素不计代价的发力的情况。

纵观今年WAIC国内各家大模型公司的新品发布会,比拼模型性能强调参数的内容占比也越来越少,更多的是将自家模型和产品的特点,生态搭建等差异化因素展现出来,希望在应用层赶快找到落地的思路。

而依然在快速迭代模型性能的公司,也不仅仅是在测评集上下功夫,也更多的基于自己在技术路径上的特点和积累的优势,力图推出让人眼前一亮的技术和产品。

在5月份,OpenAI和谷歌前后脚放出了基于自身原生多模态大模型打造的最新模型产品——GPT-4o和“Project Astro”。它们都是利用自己模型的原生多模态能力,让用户能用声音和摄像头直接和模型自然地,低延迟地交互,希望能够重塑人机交互的新范式。

而商汤也成为了国内首家跟进的大模型公司,基于他们的原生多模态基础模型,快速地推出了“日日新5o”。商汤将它定义为国内首个所见即所得模型,希望能带来和AI实时的流式多模态交互的新模式。

从人类发明计算机以来,人机交互“平台级”的革命,最终都跑出了载入历史的产品和公司:人机图形化交互界面的革命,让微软成为了世界上最大的科技公司之一,让Windows成为了PC的灵魂;而iPhone的出现,开启了移动互联网时代,让苹果成为了最受用户欢迎,也是最赚钱的科技公司。

这也许是为什么OpenAI和谷歌都不约而同地选择将大模型技术朝着多模态方向上持续迭代背后的思考和逻辑。

商汤的发布会上发了很多东西,也讲了很多内容,有智能驾驶端到端的更新和突破,有可控视频生成的最新产品更新,有医疗行业落地的实例,有出海的举措。但也许日日新5o的发布,会成为那种在5年甚至10年之后,还会不断被人们回忆起,开启了一个新时代的时刻。

硬刚GPT-4o的流式多模态大模型

工作人员刚开始仅是和 “日日新5o”打个招呼,它就自动识别出工作人员脖子佩戴的胸卡带子上的字眼,判断出现场就是世界人工智能大会会场,并表示在这个地方可以“好好学习”。

现场拍摄

接下来工作人员拿了一只可爱小狗玩偶,“日日新5o”准确描述了小狗的外貌、表情以及重要穿戴——一个带着印有商汤科技logo白帽子,很给主场人排面。

现场拍摄

再上些难度,随便翻开一本书的任何一页,“日日新5o”都能自动介绍,不是简单的OCR识别文字,而是识别图文给出好理解的总结,这一切在瞬间即可完成,真正做到实时交互。

现场拍摄

画功” ,随手画了一只简笔画小兔子,“日日新5o”直呼画得可爱,而后工作人员又画了一个微笑表情,它从这个平静的表情中捕捉到了笑意,工作人员又改了一笔把嘴巴画大增添了舌头,“日日新5o”看到后立马说道这表情开心多了。

而在商汤的展台,我们也亲自体验了日日新5o的能力,有参观的用户觉得商汤准备好的几个固定的玩偶和书本可能有提前安排的嫌疑,就随手拿出自己带的一瓶矿泉水让模型去识别。模型丝毫不费力地就识别出这是一瓶喝了一半的农夫山泉。

现场拍摄

之后,观众又随手翻开旁边的书本,让模型通过摄像机去归纳内容,日日新5o也都能对答如流。

这些功能的实现,都是基于商汤训练的原生多模态大模型的能力。它能实时快速地处理多模态数据,从而让用户和AI的交互变得无比丝滑。商汤也第一次用中文界定了GPT-4o这样的交互方式——流式原生多模态交互模型。

WAIC镇馆之宝——Vimi视频生成模型

而除了这个流式多模态大模型的展示之外,商汤还带来了他们视频生成的最新进展——Vimi。

官方提供

Vimi是基于日日新5.5能力打造的首个可控人物视频生成大模型。只需一张任意风格照片,普通用户也能生成长达1分钟的视频。

“人物可控”一直是大模型生成的难题,就算强如Sora都难以精准控制动作,且连续性也不是太好,人物的五官和细节都很难避免畸变。

但Vimi不同,它能精确控制人物面部表情和半身像的自然姿态。此外,还能自动生成与人物匹配的头发、服装和背景变化,视频时长可达分钟级别。

官方放出的演示,一张自己照片马上变成冰雪女王。

官方提供

官方更是用Vimi将图灵,香农等计算机发展史上的大咖都复活起来,而且随着人物的运动,五官特征都得以保留的很好。

性能大幅升级,端云协同将大模型的成本彻底打下来

而商汤除了新点出的这两点科技树,日日新5.5在两个月的时间内又再次迭代 ,在性能上又有了接近30%的提升。在各大测试集上,日日新5.5重新占据了非常领先的位置。

官方提供

短时间内商汤模型能力取得如此大的提升,最主要是源于他们对训练数据进行更新。根据商汤的说法,他们使用超过 10TB tokens训练数据,包括大量人工合成数据,数据构造从基本的文本知识转向合成思维链数据。使得模型在数学、推理、长文本、编程等多个维度都有大幅提升。

而除了利用全新的合成数据对模型进行“增效”,商汤在“降本”层面上也取得了突破。模型采用混合端云协同架构,可最大限度发挥云边端协同,从而大幅降低了推理的成本,能够让用户以更低的成本获得更好的大模型使用体验。

商汤日日新端侧模型5.5 Lite同样也在性能指标的各维度上做到了全面升级。速度更快,效果层面在多个维度均全面升级,支持在智能手机、平板电脑、PC、车舱一体机等设备部署应用。

基于手机旗舰平台,5.5 Lite首次安装的耗时仅为0.19秒,相较于之前的版本减少了40%。它的推理速度提高了15%,达到每秒90.2个汉字的处理速度。

此外,商汤还推出了端侧模型矩阵,其中包括商量Mini写作助手、总结助手和百科助手等专门定制的模型。这些专项模型在相应的场景下具有更优异的性能,能够满足客户复杂业务场景的需求,同时也能够提供不同的专项模型供客户选择或定制。

而对于用户来说,端侧模型的使用成本,更是做到了几乎免费。

官方提供

相关内容

热门资讯

海棠故事即将启幕!三亚再添消费... 2026年2月10日,三亚海棠故事即将亮相。该项目汇集米其林食遇美食节海南首展、三亚海棠艺术节等多项...
突发头晕、肢体麻木?警惕脑梗来... “早上起床突然头晕目眩,左侧手脚麻得抬不起来,说话也含糊不清,家人赶紧送我来医院,幸好来得及时,不然...
光大证券:公司持续贯彻“以投资... 证券日报网讯 2月9日,光大证券在互动平台回答投资者提问时表示,公司持续贯彻“以投资者为本”的理念,...
比特币经历剧烈震荡后跌破7万美... 来源:环球市场播报 经历上周末的剧烈震荡后,比特币(BTC-USD)于本周一跌破7万美元关口。 这一...
发行利率1.94%,北京保障房... 来源:北京日报客户端 2月9日,记者从北京保障房中心获悉,其成功发行2026年度第一期公司债券,规模...
马斯克引爆光伏,产业链市值“回... “马年炒马斯克”,股吧的一句戏言背后是马斯克2026年开年在我国资本市场上掀起的热潮。 在AI、芯片...
美股早盘三大股指下跌 2月9日美股早盘,三大股指普跌。北京时间22时32分,纳指下跌0.49%,标普500指数下跌0.28...
视频模型的两条河流:字节跳动S... 当硅谷还在讨论 Sora 的“世界模拟器”宏大叙事时,字节跳动用 Seedance 2.0 的发布,...
民生加银新动能一年定开增聘范明... 中国经济网北京2月9日讯 今日,民生加银基金公告,民生加银新动能一年定开混合增聘范明月。 范明月自2...
奥普特拟募资不超13.8亿元 ... 《科创板日报》2月9日讯(记者 陈俊清)2月9日晚间,机器视觉软硬件产品供应商奥普特披露一轮募资计划...
重庆A股57家上涨 望变电气、... 2月9日,79家重庆A股上市公司中有57家上涨,4家平收,下跌18家。 同花顺iFinD数据显示,望...
原创 2... 编辑:[太阳] 过去72小时,金价剧烈波动——先急速飙升,又突然暴跌。这并非普通市场震荡,而是投资者...
美拉拢50国开展关键矿产特惠贸... (来源:矿权资源网) 来源:矿权资源网 据Mining.com网站报道,美国将联合欧盟、日本和墨西哥...
布米普特拉北京投资基金管理有限... 中东地区领先的金融枢纽迪拜国际金融中心近日公布其二零二五年度业绩,多项核心指标创下历史新高,显示出强...
威灵顿投资管理:三大因素驱动全... 来源:中国新闻网 中新社上海2月9日电 (记者 姜煜)全球规模最大的独立投资管理公司威灵顿投资管理9...
原创 世... 大家都知道我国基建厉害,但在发电这事儿上,我们已经不是简单的“强”了,而是强得让对手有点绝望。 美国...
国内PCB设备商港股上市备案通... 来源:东方财富网 与您一路同行,做您最忠实的拥护者--PCB行业融合新媒体-2026年最有价值的电路...
监管通报 | 金华银行、温州银... 2月9日,国家金融监督管理总局金华监管分局对金华银行、温州银行开出百万罚单,两张银行被处罚的事由均是...
2026年,沃尔玛怎么就变得这... 来源:市场资讯 (来源:经济观察报) 近期,零售圈有个现象级的大事件——沃尔玛与小红书联名了!不到...
厦门钨业:回应2025年三大主... 来源:问董秘 投资者提问: 请问董秘贵公司2025年年报预报三大主业钨钼电池稀土在各自行业业绩为什么...