大模型基准测试体系研究报告(2024年)
创始人
2024-07-13 18:50:08
0

近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器智能的边界,展现出通用人工智能的“曙光”。如何准确、客观、全面衡量当前大模型能力,成为产学研用各界关注的重要问题。设计合理的任务、数据集和指标,对大模型进行基准测试,是定量评价大模型技术水平的主要方式。大模型基准测试不仅可以评估当前技术水平指引未来学术研究,牵引产品研发、支撑行业应用,还可以辅助监管治理,也有利于增进社会公众对人工智能的正确认知,是促进人工智能技术产业发展的重要抓手。全球主要学术机构和头部企业都十分重视大模型基准测试,陆续发布了一系列评测数据集、框架和结果榜单,对于推动大模型技术发展产生了积极作用。然而,随着大模型能力不断增强和行业赋能逐渐深入,大模型基准测试体系还需要与时俱进,不断完善。

本研究报告首先回顾了大模型基准测试的发展现状,对已发布的主要大模型评测数据集、体系和方法进行了梳理,分析了当前基准测试存在的问题和挑战,提出了一套系统化构建大模型基准测试的框架--“方升”大模型基准测试体系,介绍了基于“方升”体系初步开展的大模型评测情况,并对未来大模型基准测试的发展趋势进行展望面向未来。

大模型基准测试发展概述

近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器智能的边界,展现出通用人工智能的“曙光”,全球各大科技巨头和创新型企业纷纷围绕大模型加强布局。如图1所示,2018年,谷歌公司提出基于 Transformer实现的预训练模型BERT,在机器阅读理解水平测试 SQuAD 中刷新记录。同年,OpenAI公司发布了第一代生成式预训练模型 GPT-1,擅长文本内容生成任务。随后几年,OpenAI相继推出了GPT-2和GPT-3,在技术架构、模型能力等方面进行持续创新。2022年11月,OpenAI发布的ChatGPT在智能问答领域上的表现引起产业界轰动。除了大语言模型,2023年,OpenAI还发布了多模态大模型 GPT-4。同期国内大模型的发展也呈现不断加速态势,已经发布了华为“盘古”、百度“文心一言”、阿里“通义千问”、腾讯“混元”和智谱“清言”等200 多个通用和行业大模型产品。

随着大模型产品的不断推出,对大模型的能力进行评测逐渐成为产业界关注的重点。1950年代提出的图灵测试(TuringTesting)作为一种经典的人工智能测试方法,一直被认为是衡量机器智能水平的“试金石”。2023年7月《自然(Nature)》发表文章《ChatGPTbrokethe Turing test -the race is on for new ways to assess AI》,指出图灵测试已经无法满足大模型的评测要求,应该探索新方法来评估人工智能水平。

大模型基准测试(Benchmark)的目标是通过设计合理的测试任务和数据集来对模型的能力进行全面、量化的评估。大模型基准测试体系涵盖了大模型的测评指标、方法、数据集等多项关键要素,是指导大模型基准测试落地实践的规范。

来源:中国信通院

免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系

相关内容

热门资讯

罕见病例!鱼刺游走穿胃伤肝,专... 近日,河南省人民医院北院区肝胆胰腺外科成功救治一例因鱼刺游走穿破胃壁、刺入肝脏引发的罕见肝脓肿患者,...
币圈院士:6.22以太坊(ET... 币圈院士:6.22以太坊(ETH)当前如何布局?最新行情分析参考 以太坊现价1730,日K线当前处于...
投资大家谈 | 6月鹏华基金基... 来源:点拾投资 导语:“投资大家谈”是点拾投资的公益内容栏目,希望通过每周日不定期的推送,让更多人看...
从怀孕到生娃,这7笔钱记得领! 为贯彻落实党中央、国务院决策部署, 财政部近期下达2026年育儿补贴补助资金999亿元,较上年增长1...
原创 G... 在全球化日益加深的今天,国际关系的动态发展无时无刻不在影响着各国的战略决策,而台海问题则成为了其中一...
深度|诺奖得主、DeepMin... 2026年6月2日,斯坦福商学院。Google DeepMind联合创始人兼CEO、2024年诺贝尔...
有哪些可提供东南亚TikTok... 近年来东南亚区域TikTok电商生态快速扩张,大量个人创业者、中小企业、传统商家等群体希望切入该赛道...
“大空头”查诺斯:当前AI产业... 当AI浪潮下的“卖水人”赚得盆满钵满时,算力基础设施的真实投资回报率究竟是一地鸡毛,还是受制于物理极...
茅台主动砍掉冰淇淋和咖啡:品牌... 2026 年 6 月,茅台总经理王莉在一次公开活动中明确表态:停售茅台冰淇淋、咖啡和巧克力,未来品牌...
原创 6... 在中国金融界,每年一度的陆家嘴论坛无疑是万众瞩目的焦点,它犹如一面镜子,折射出未来一段时期内政策走向...
湛江购买力增速全省第一!京东6... 2026年京东618即将收官 广东稳坐全国购买力头把交椅 从省内分布来看 湛江市拿下购买力增速全省第...
天永智能:收到混动L5线设备导... 中证智能财讯 天永智能(603895)6月18日晚间公告,公司近日收到东风国际招标有限公司发来的中标...
原创 如... 县城里一套2018年花一百二十万买的电梯房,今年挂牌九十万都没人看。这种事在中部、东北的不少小城市,...
原创 高... 今年开年以来,中国对日本的镓、锗和稀土等关键矿产出口持续收紧,尤其是金属镓,从1月到4月对日本的直接...
五地国资角力三安股权 “林素真... 问道者 | 杜一用 就在重庆、湖北、长沙、厦门和泉州五地国资轮候冻结,并着手拍卖福建三安集团和厦门三...
原创 为... 人民币这事儿,比很多人想的复杂得多。第一套人民币最大面额是50000元,现在最大才100元,不是越印...
安徽县城“隐形大佬”,一年挣了... 封面图来源:元新闻 你可能不知道,你手里的那杯瑞幸咖啡,纸杯可能出自安徽一位曾经的教书先生之手。 ...
特朗普:或接管霍尔木兹海峡!原... 美国与伊朗在瑞士会谈开始。 美国副总统万斯在与伊朗举行高级别会谈前表示,美国愿意与伊朗“从根本上改变...
轻度干眼症眼睛酸胀刺痛怎么用药 干眼症的本质是一种慢性炎症性眼病,眼表长期存在的低度炎症会刺激角膜和结膜上的感觉神经末梢,从而引起酸...
原创 东... 东京电力控股公司正推进与5家潜在合作方的资本合作谈判,其中包括软银、日本国内投资基金日本产业合作伙伴...