大模型基准测试体系研究报告(2024年)
创始人
2024-07-13 18:50:08
0

近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器智能的边界,展现出通用人工智能的“曙光”。如何准确、客观、全面衡量当前大模型能力,成为产学研用各界关注的重要问题。设计合理的任务、数据集和指标,对大模型进行基准测试,是定量评价大模型技术水平的主要方式。大模型基准测试不仅可以评估当前技术水平指引未来学术研究,牵引产品研发、支撑行业应用,还可以辅助监管治理,也有利于增进社会公众对人工智能的正确认知,是促进人工智能技术产业发展的重要抓手。全球主要学术机构和头部企业都十分重视大模型基准测试,陆续发布了一系列评测数据集、框架和结果榜单,对于推动大模型技术发展产生了积极作用。然而,随着大模型能力不断增强和行业赋能逐渐深入,大模型基准测试体系还需要与时俱进,不断完善。

本研究报告首先回顾了大模型基准测试的发展现状,对已发布的主要大模型评测数据集、体系和方法进行了梳理,分析了当前基准测试存在的问题和挑战,提出了一套系统化构建大模型基准测试的框架--“方升”大模型基准测试体系,介绍了基于“方升”体系初步开展的大模型评测情况,并对未来大模型基准测试的发展趋势进行展望面向未来。

大模型基准测试发展概述

近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器智能的边界,展现出通用人工智能的“曙光”,全球各大科技巨头和创新型企业纷纷围绕大模型加强布局。如图1所示,2018年,谷歌公司提出基于 Transformer实现的预训练模型BERT,在机器阅读理解水平测试 SQuAD 中刷新记录。同年,OpenAI公司发布了第一代生成式预训练模型 GPT-1,擅长文本内容生成任务。随后几年,OpenAI相继推出了GPT-2和GPT-3,在技术架构、模型能力等方面进行持续创新。2022年11月,OpenAI发布的ChatGPT在智能问答领域上的表现引起产业界轰动。除了大语言模型,2023年,OpenAI还发布了多模态大模型 GPT-4。同期国内大模型的发展也呈现不断加速态势,已经发布了华为“盘古”、百度“文心一言”、阿里“通义千问”、腾讯“混元”和智谱“清言”等200 多个通用和行业大模型产品。

随着大模型产品的不断推出,对大模型的能力进行评测逐渐成为产业界关注的重点。1950年代提出的图灵测试(TuringTesting)作为一种经典的人工智能测试方法,一直被认为是衡量机器智能水平的“试金石”。2023年7月《自然(Nature)》发表文章《ChatGPTbrokethe Turing test -the race is on for new ways to assess AI》,指出图灵测试已经无法满足大模型的评测要求,应该探索新方法来评估人工智能水平。

大模型基准测试(Benchmark)的目标是通过设计合理的测试任务和数据集来对模型的能力进行全面、量化的评估。大模型基准测试体系涵盖了大模型的测评指标、方法、数据集等多项关键要素,是指导大模型基准测试落地实践的规范。

来源:中国信通院

免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系

相关内容

热门资讯

原创 明... 明明加强了管制,为什么中国突然又对日本稀土出口放行?2月6日,就在日本各界对中国出口管制政策感到焦虑...
比特币,大跌后大涨!超9万人爆... 来源:市场资讯 (来源:网易科技) 2月8日晚,比特币向上触及71000美元关口,过去24小时内涨4...
i茅台APP崩溃背后:高流量如... "明明守着整点抢购,页面却卡成了PPT!"这或许是近期i茅台用户最真实的抱怨。当贵州茅台宣布自营电商...
俄外长:若欧洲国家发动攻击 俄... △拉夫罗夫(资料图) 当地时间2月8日,总台记者获悉,俄罗斯外长拉夫罗夫表示,俄方多次声明没有攻击欧...
看好A股春节假期前后“红包行情... 范雨露 制图 过去一周,A股市场整体呈震荡调整态势,节前资金观望情绪有所升温。本周,A股即将迎来春节...
资金流向逆转 新发ETF纷纷上... 上周,股票型ETF资金持续大幅净流出的情况得以逆转。据Choice数据测算,2月3日,股票型ETF净...
春节临近 多地中小银行上调存款... 春节临近 多地中小银行上调存款利率 尽管市场利率整体呈下行态势,但在春节临近之际,多地中小银行纷纷...
中国黄金,宣布调整 中国黄金于公告中表示,近期受多重因素影响,贵金属价格波动显著加剧,不确定性持续上升。公司提示广大消费...
孩子经常吸鼻、耸鼻?除了鼻炎,... “宝贝,别老吸鼻子,不雅观”“又耸鼻子,是不是鼻子又不舒服了?” 生活中,很多家长都会遇到这样的困扰...
原创 欧... 北伏电池的破产,宛如一曲悲歌,为这场甚嚣尘上的“脱钩断链”闹剧画上了一个极具讽刺意味的休止符。它用一...
深圳市兆驰股份有限公司第六届 ... 证券代码:002429 证券简称:兆驰股份 公告编号:2026-004 深圳市兆驰股份有限公司第六届...
一批基金老将业绩重回巅峰 强势... 数据来源:Wind 安仲文/制表 图虫创意/供图 证券时报记者 吴琦 “基金老将还能打吗?”过去两三...
原创 突... 2026年2月6日,港股收盘时,一组数字让不少投资者心里一凉。 恒生指数跌了1.21%,恒生科技指数...
原创 7... 【甘地】甘地是印度民族解放运动的伟大领袖,曾为印度人民的独立与自由奋力拼搏。在上世纪四十年代,甘地所...
国际观察|市场“用脚投票”——... 新华社柏林2月7日电 题:市场“用脚投票”——从德国外贸结构看德中合作韧性 新华社记者李函林 车云龙...
原创 特... 特朗普宣称赢了,可他身后的白宫正因为没钱发工资,陷入一片漆黑。 2026年1月31号,正当咱们这边还...
为啥手术前不能吃东西?连口水都... “不就是喝了点水吗?怎么就不能做手术了!” “你们不让我吃饭,我就没吃,我只是吃了点花生米,这也不...
股强债弱!开年公募“用脚投票”... 本报(chinatimes.net.cn)记者张玫 北京报道 2026年开年,公募基金分红与自购热情...
高人预测:2026房价若继续下... 很多人现在问得最多的问题就一个: “2026年,房价到底是涨还是跌?”买在高位的人,怕接着跌,首付眼...