对标GPT-4o,商汤发布“流式多模态大模型”,在国内首燃“人机交互革命”的火种
创始人
2024-07-08 08:36:39
0

文:李然

正在上海举行的世界人工智能大会WAIC,就像是对所有中国大模型公司的一个年中考试。大家都铆足劲,秀出了自己最新的进展。

2023百模大战” 各家都在刷榜比拼大模型的性能参数,在AI 2.0的“应用元年” ,今年各家AI公司都在基于自己对于AI应用和大模型技术理解的“非共识”,希望走出一条自己的破局之道。

在年初的大模型价格战,各家公司把API的价格彻底卷下来之后,似乎大模型市场就很少出现同时针对某一个单点因素不计代价的发力的情况。

纵观今年WAIC国内各家大模型公司的新品发布会,比拼模型性能强调参数的内容占比也越来越少,更多的是将自家模型和产品的特点,生态搭建等差异化因素展现出来,希望在应用层赶快找到落地的思路。

而依然在快速迭代模型性能的公司,也不仅仅是在测评集上下功夫,也更多的基于自己在技术路径上的特点和积累的优势,力图推出让人眼前一亮的技术和产品。

在5月份,OpenAI和谷歌前后脚放出了基于自身原生多模态大模型打造的最新模型产品——GPT-4o和“Project Astro”。它们都是利用自己模型的原生多模态能力,让用户能用声音和摄像头直接和模型自然地,低延迟地交互,希望能够重塑人机交互的新范式。

而商汤也成为了国内首家跟进的大模型公司,基于他们的原生多模态基础模型,快速地推出了“日日新5o”。商汤将它定义为国内首个所见即所得模型,希望能带来和AI实时的流式多模态交互的新模式。

从人类发明计算机以来,人机交互“平台级”的革命,最终都跑出了载入历史的产品和公司:人机图形化交互界面的革命,让微软成为了世界上最大的科技公司之一,让Windows成为了PC的灵魂;而iPhone的出现,开启了移动互联网时代,让苹果成为了最受用户欢迎,也是最赚钱的科技公司。

这也许是为什么OpenAI和谷歌都不约而同地选择将大模型技术朝着多模态方向上持续迭代背后的思考和逻辑。

商汤的发布会上发了很多东西,也讲了很多内容,有智能驾驶端到端的更新和突破,有可控视频生成的最新产品更新,有医疗行业落地的实例,有出海的举措。但也许日日新5o的发布,会成为那种在5年甚至10年之后,还会不断被人们回忆起,开启了一个新时代的时刻。

硬刚GPT-4o的流式多模态大模型

工作人员刚开始仅是和 “日日新5o”打个招呼,它就自动识别出工作人员脖子佩戴的胸卡带子上的字眼,判断出现场就是世界人工智能大会会场,并表示在这个地方可以“好好学习”。

现场拍摄

接下来工作人员拿了一只可爱小狗玩偶,“日日新5o”准确描述了小狗的外貌、表情以及重要穿戴——一个带着印有商汤科技logo白帽子,很给主场人排面。

现场拍摄

再上些难度,随便翻开一本书的任何一页,“日日新5o”都能自动介绍,不是简单的OCR识别文字,而是识别图文给出好理解的总结,这一切在瞬间即可完成,真正做到实时交互。

现场拍摄

画功” ,随手画了一只简笔画小兔子,“日日新5o”直呼画得可爱,而后工作人员又画了一个微笑表情,它从这个平静的表情中捕捉到了笑意,工作人员又改了一笔把嘴巴画大增添了舌头,“日日新5o”看到后立马说道这表情开心多了。

而在商汤的展台,我们也亲自体验了日日新5o的能力,有参观的用户觉得商汤准备好的几个固定的玩偶和书本可能有提前安排的嫌疑,就随手拿出自己带的一瓶矿泉水让模型去识别。模型丝毫不费力地就识别出这是一瓶喝了一半的农夫山泉。

现场拍摄

之后,观众又随手翻开旁边的书本,让模型通过摄像机去归纳内容,日日新5o也都能对答如流。

这些功能的实现,都是基于商汤训练的原生多模态大模型的能力。它能实时快速地处理多模态数据,从而让用户和AI的交互变得无比丝滑。商汤也第一次用中文界定了GPT-4o这样的交互方式——流式原生多模态交互模型。

WAIC镇馆之宝——Vimi视频生成模型

而除了这个流式多模态大模型的展示之外,商汤还带来了他们视频生成的最新进展——Vimi。

官方提供

Vimi是基于日日新5.5能力打造的首个可控人物视频生成大模型。只需一张任意风格照片,普通用户也能生成长达1分钟的视频。

“人物可控”一直是大模型生成的难题,就算强如Sora都难以精准控制动作,且连续性也不是太好,人物的五官和细节都很难避免畸变。

但Vimi不同,它能精确控制人物面部表情和半身像的自然姿态。此外,还能自动生成与人物匹配的头发、服装和背景变化,视频时长可达分钟级别。

官方放出的演示,一张自己照片马上变成冰雪女王。

官方提供

官方更是用Vimi将图灵,香农等计算机发展史上的大咖都复活起来,而且随着人物的运动,五官特征都得以保留的很好。

性能大幅升级,端云协同将大模型的成本彻底打下来

而商汤除了新点出的这两点科技树,日日新5.5在两个月的时间内又再次迭代 ,在性能上又有了接近30%的提升。在各大测试集上,日日新5.5重新占据了非常领先的位置。

官方提供

短时间内商汤模型能力取得如此大的提升,最主要是源于他们对训练数据进行更新。根据商汤的说法,他们使用超过 10TB tokens训练数据,包括大量人工合成数据,数据构造从基本的文本知识转向合成思维链数据。使得模型在数学、推理、长文本、编程等多个维度都有大幅提升。

而除了利用全新的合成数据对模型进行“增效”,商汤在“降本”层面上也取得了突破。模型采用混合端云协同架构,可最大限度发挥云边端协同,从而大幅降低了推理的成本,能够让用户以更低的成本获得更好的大模型使用体验。

商汤日日新端侧模型5.5 Lite同样也在性能指标的各维度上做到了全面升级。速度更快,效果层面在多个维度均全面升级,支持在智能手机、平板电脑、PC、车舱一体机等设备部署应用。

基于手机旗舰平台,5.5 Lite首次安装的耗时仅为0.19秒,相较于之前的版本减少了40%。它的推理速度提高了15%,达到每秒90.2个汉字的处理速度。

此外,商汤还推出了端侧模型矩阵,其中包括商量Mini写作助手、总结助手和百科助手等专门定制的模型。这些专项模型在相应的场景下具有更优异的性能,能够满足客户复杂业务场景的需求,同时也能够提供不同的专项模型供客户选择或定制。

而对于用户来说,端侧模型的使用成本,更是做到了几乎免费。

官方提供

相关内容

热门资讯

机构:美国国债收益率飙升,亚洲... 6月22日,,据彭博行业研究,对于黄金和白银等不产生利息收益的贵金属而言,美国30年期国债收益率升至...
营销话术现形,监管揭开拼多多的... “6·18”购物节大战正浓,各大电商平台厉兵秣马、蓄势待发。但官方一纸约谈,让原本滚烫的战场骤然降温...
茉莉奶白纽约闭店始末:品牌与加... 作者 | 肖思佳 编辑 | 乔芊 2024年,茉莉奶白纽约法拉盛门店,单月约50万美金营收。 对一个...
云南红塔银行一员工因违规发放用... 6月22日,据昭通金融监管分局行政处罚信息公开表显示,云南红塔银行股份有限公司昭通分行相关责任人聂枫...
利嘉阁:预计下半年香港中小型住... 观点网讯:6月22日,利嘉阁地产董事郑健粮指出,踏入2026年,香港楼市承接去年底的旺市而持续升温,...
2026爱分析·中国企业智能体... 今天分享的是:2026爱分析·中国企业智能体市场规模报告 报告共计:14页 《2026爱分析·中国企...
汽车零部件行业整合提速,汽车零... 今日汽车板块主要指数涨跌分化,截至收盘,中证智能电动汽车指数上涨1.6%,中证汽车零部件主题指数下跌...
跌破4200美元!金价突然崩了... 王爷说财经讯:金价崩了!一夜之间,多少人睡不着了! 你没看错,黄金又跌了。 就在6月22日,国际金价...
马云携阿里高管下田插秧 全员挽... 快科技6月22日消息,据媒体消息,近日,阿里合伙人、高德董事长刘振飞在阿里内网发布题为《手里有秧,才...
2026最新政策下,婴儿脑瘫治... 在当今社会,婴儿脑瘫问题一直是许多家庭的沉重负担。相关数据显示,我国每年新增脑瘫患儿数量呈上升趋势,...
俄罗斯平台Yandex,掀起“... 目前,俄罗斯电商呈现三足鼎立之势,Yandex Market、Ozon和Wildberries各据一...
官宣!李楠出任北京首钢主帅 许... 北京时间6月22日消息,北京首钢篮球俱乐部发布公告宣布,李楠出任球队主教练,许利民担任俱乐部总教练。...
韩国央行预警芯片企业“天价奖金... 韩国芯片巨头三星与SK海力士的天价奖金风波虽已告一段落,但相关溢出消息正引发韩国央行的密切关注。 近...
时代锐评|消费主题基金重仓AI... 图片来源:图虫创意 2026年以来,A股结构性行情愈演愈烈。一边是人工智能、算力、半导体、机器人等科...
智谱回A前夜:创始人“叫板”马... 图片来源:unsplash 6月22日,“全球大模型第一股”智谱港股股价再创新高,盘中一度冲至298...
“杨子家族”套现28亿后卸任巨... 赚的不多,拿的不少。 作者 | 于婞 高岩 编辑丨于婞 来源 | 野马财经 与女明星黄圣依“再见爱人...
2026.06.18基差交易上... 来源:市场资讯 (来源:全国棉花交易市场) 中国棉花信息网专讯 2026年06月18日,全国棉花交...
股价大涨327%!港股“物理A... 智东西 作者 | 毕伟豪 编辑 | 李水青 二十万人疯抢的港交所新股上市了! 智东西6月22日报道...
原创 美... 华盛顿的能源圈最近明显有些坐不住了,空气里都透着一股焦躁的味道。美国的战略石油储备一桶接一桶往外释放...
只剩下6511亿美元,中方再抛... 4月的国际资本流动数据刚一出炉,圈子里就炸了锅。咱们先说个让不少人意外的——日本这个老面孔,居然在自...