国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用
量子位
2023-09-04 09:57:18
0

原标题:国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用

萧箫 发自 凹非寺

量子位 | 公众号 QbitAI

首个中英双语的语音对话开源大模型来了!

这几天,一篇关于语音-文本多模态大模型的论文出现在arXiv上,署名公司中出现了李开复旗下大模型公司01.ai——零一万物的名字。

这篇论文提出了一个中英双语可商用对话模型LLaSM,同时支持录音和文本输入,“混合双打”也没有问题:

论文认为,“语音聊天”才是AI与人之间更方便自然的交互方式,而不仅仅是通过文本输入。

用上大模型,有网友已经在想象“躺着说话就能写代码”的场景了。

这项研究来自LinkSoul.AI、北大和零一万物,目前已经开源,也可以在抱抱脸中直接试玩。

一起来看看它的效果如何。

支持文本语音输入,手机也可玩

据研究人员表示,LLaSM是第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。

那么,就来看看它的语音文本输入中英双语能力如何。

首先来个中英文化碰撞,让它用英文评价一下李白:

还可以,正确地说出了李白的朝代。如果看不懂英文,让它直接翻译成中文也没问题:

接下来再试试中英混合提问,在中文里面掺杂一个“fried food”,模型输出也不错:

再试探一下模型,让它进行一些评价,看看李白和杜甫哪个更厉害。

可以看出,模型思考一会后给出了非常中立的评价,也具备大模型的基本“端水常识”(手动狗头)

当然,不止是电脑,手机也能玩。

我们试着用语音输入“给我推荐一个菜谱吧”:

已关注

关注

重播分享

关闭

观看更多

更多

正在加载

    正在加载

    退出全屏

    视频加载失败,请刷新页面再试

    刷新

    视频详情

    可以看到模型准确地输出了一个“茄子芝士”的菜谱,就是不知道好不好吃。

    不过,我们在尝试的时候也发现,这个模型有时候会出bug。

    例如有时候它并不能很好地“听懂人话”。

    要求输出中英混合的内容,它会假装看不懂并输出英文:

    而当中英混合询问想听“Taylor Swift的Red”时,模型更是直接出大bug,反反复复输出一句话,甚至停不下来……

    总体来看,当遇到中英混合的提问或要求时,模型输出能力还是不太行。

    不过分开的话,它的中英文表述能力还是不错的。

    那么,这样的模型究竟是怎么实现的呢?

    做了个什么新模型?

    从试玩来看,LLaSM主要有两个特点:一个是支持中英输入,另一个是语音文本双输入

    要做到这两点,分别需要在架构和训练数据上做一些调整。

    架构上,LLaSM将当前的语音识别模型和大语言模型做了个整合。

    LLaSM由三个部分构成,分别包括自动语音识别模型Whisper、模态适配器和大模型LLaMA。

    其中,Whisper负责接收原始语音输入,并输出语音特征的向量表示;模态适配器负责对齐语音和文本嵌入;LLaMA则负责理解语音和文本输入的指令,并生成回复。

    模型的训练一共分为两个阶段,第一阶段训练模态适配器,冻结编码器和大模型,也就是让它来学习语音和文本对齐;第二阶段冻结编码器,训练模态适配器和大模型,来学习多模态对话能力。

    训练数据上,研究人员整理出了一个包含19.9万个对话和50.8万个语音-文本样本的数据集LLaSM-Audio-Instructions。

    而在50.8万个语音-文本样本中,有8万个中文语音样本,42.8万个英文语音样本。

    研究人员主要基于WizardLM、ShareGPT和GPT-4-LLM等数据集,通过文本转语音技术,给这些数据集生成语音包,同时过滤掉无效对话。

    这也是目前最大的中英文语音文本指令遵循数据集,不过目前还在整理中,据研究人员表示,整理完后会进行开源。

    不过,论文暂时没有对比它和其他语音模型或文本模型的输出效果。

    作者介绍

    这篇论文来自LinkSoul.AI、北京大学和零一万物。

    共同一作Yu Shu和Siwei Dong均来自LinkSoul.AI,此前曾经在北京智源人工智能研究院工作。

    LinkSoul.AI是一家AI初创公司,之前推出过首个开源Llama 2的中文语言大模型。

    作为李开复旗下的大模型公司,零一万物也在这次研究中有所贡献。作者Wenhao Huang的Hugging Face主页显示,他毕业于复旦大学。

    论文地址:

    https://arxiv.org/abs/2308.15930

    Demo地址:

    https://huggingface.co/LinkSoul/LLaSM-Cllama2

    报名开启!9月6日

    「具身智能前夜」仿生机器人沙龙

    9月6日 14:30,量子位智库行业沙龙「具身智能前夜」将为你解读仿生机器人的崛起与挑战,邀请到来自云深处科技、帕西尼感知科技、大象机器人等企业代表,聊聊仿生机器人行业最新趋势~

    后台回复「仿生机器人」,报名线下参与仿生机器人行业沙龙

    点这里👇关注我,记得标星哦~

    一键三连「分享」、「点赞」和「在看」

    科技前沿进展日日相见 ~

    相关内容

    热门资讯

    原创 “... 近年来,随着经济环境的变化和市场竞争的加剧,一些曾经看似火热的行业正面临着严峻的挑战。许多创业者满怀...
    原创 A... 从盘面细节来看,个股呈现普跌态势。两市超过3600只股票收盘下跌,市场整体的赚钱效应非常差。中小盘个...
    暴跌来袭!黄金白银“闪崩”,港... 2月5日,金银市场风云突变,在短暂反弹后再度上演暴跌行情。 现货黄金盘中一度跌近3%,截至发稿收窄至...
    2026年全国服务消费和服务贸... 2月4-5日,2026年全国服务消费和服务贸易工作会议在京召开。会议以习近平新时代中国特色社会主义思...
    未来货币是“瓦特”?(读数) 本报记者 曹 磊 王 坎 郑晓宇 国家能源局近日发布数据,2025年我国全社会用电量历史性突破10万...
    国家超算互联网核心节点上线试运... 2月5日,国家超算互联网应用技术大会暨核心节点上线试运行仪式在郑州隆重举行。发改委、科技部、工信部、...
    情绪龙头向消费转移!说明了什么... 今天,A股三大指数集体回调。截至收盘,上证指数下跌0.64%,深证成指、创业板指数的跌幅均超过1.4...
    爱尔眼科董事长陈邦为一疑似“骗... 界面新闻记者 | 李科文 界面新闻编辑 | 谢欣 据《新京报》,湖北襄阳、宜昌多家精神病院被曝以“免...
    原创 人... 资本市场的疯狂,向来都需要一个足够宏大的载体来承接——这一次,是太空。 据《金融时报》《路透社》等权...
    江波龙37亿元募资,存储龙头向... 存储行业的强周期仍在因AI而延续。 近期,江波龙披露2025年度业绩预告显示,公司全年净利润预计同比...
    春节消费提示来了!电白区消保委... 2026年春节将至,为保障广大群众度过一个平安、祥和、幸福的佳节,茂名市电白区消费者权益保护委员会近...
    创新发展 | 中国太保举办首届... 近日,中国太保以“All in AI,重塑保险”为主题,举行首届科技创新大会。来自华为、阿里云、百度...
    桥本氏甲状腺炎中医能治好吗?贾... 拿到桥本氏甲状腺炎诊断书,很多患者都会陷入迷茫:这种自身免疫性疾病,中医能治好吗?西医多建议“观察等...
    广州去年对APEC其他经济体外... 正值亚太经合组织(APEC)第一次高官会在羊城举办之际,广州市商务局联合市投发委办、外商投资企业协会...
    和讯投顾刘芳新:大盘又跌了,明... 大盘又跌了,明天有机会涨吗?和讯投顾刘芳新分析,明天震荡企稳为主来来过来看,首先今天的护盘动作非常明...
    30亿大额现金红包即将开抢,马... 瑞财经 王敏 2月4日,据阿里员工在社交媒体上分享,马云现身阿里千问项目组所在办公点。 2月2日,千...
    (外代一线)SpaceX寻求上... 美国企业家埃隆·马斯克旗下的太空探索技术公司(SpaceX)正寻求在今年上市后,推动其股票加速纳入主...
    湖南 70 后印尼卖充电宝,年... 印尼人把一家湖南人开的公司买上市了。 最近,一家叫沃客非凡的公司向港交所递交招股书,它在印尼卖 3C...
    A股春节休市安排来了 2月5日,沪深北交易所公布2026年春节休市安排:2月15日(星期日)至2月23日(星期一)休市,2...