【每天学点AI】人工智能大模型评估标准有哪些？-电子发烧友网

OpenAI新模型o1号称编程能力8倍杀GPT-4o，MMLU媲美人类专家，MMLU是什么？评估大模型的标准是什么？

相信大家在阅读大模型相关文档的时候经常会看到MMLU，BBH，GSM8K，MATH，HumanEval，MBPP，C-Eval，CMMLU等等这些都是什么？大模型训练完成后，如何客观地评估其效果呢？

当然我们不能依靠主观判断，于是研究者们制定了一系列标准，用于测评大模型在不同数据集上的表现。而这些数据集（ MMLU、C-Eval、GSM8K、MATH、HumanEval、MBPP、BBH 和 CMMLU），正是用于评估大模型性能的重要依据。

当然，它们也也可用于模型训练。

MMLU这个基准包含STEM（科学、威廉希尔官方网站、工程、数学）、人文学科、社会学科等57个学科领域，难度从初级到高级不等。

C-Eval 是一个全面的中文基础模型评估套件，它包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。

GSM8K（Grade School Math）是一个由OpenAI发布的数据集，有8.5K个高质量语言多样的小学数学问题组成。这些问题需要 2 到 8 个步骤来解决，解决方法主要是使用基本的算术运算（+ - / *）进行一连串的基本计算，以得出最终答案。

虽然看起来很简单，但很多大模型的表现都不太好。

MATH是一个包含 12500 个数学竞赛问题的数据集，其中的每个问题都有一个完整的推导过程。

HumanEval是由 164 个简单编程问题组成，主要用来评估语言理解、算法和简单的数学。

MBPP（Mostly Basic Python Programming）由大约 1000 个Python 编程问题组成，每个问题由任务描述、代码解决方案和 3 个自动化测试用例组成。

BBH的全称是BIG-Bench Hard，它是BIG-Bench数据集的一个子集，它专注于23个具有挑战性的任务，这些任务超出了当前语言模型的能力范围，BBH中的任务需要进行多步骤推理。

CMMLU，一个全面的中文大模型评估数据集。它涵盖了67个主题，涉及自然科学、社会科学、工程、人文、以及常识等，就是中文版的MMLU。

通过这些评测数据集和评估标准，我们可以从不同角度系统地评估大模型的性能、泛化能力和鲁棒性，为大模型的进一步研究和应用提供科学依据。

AI体系化学习路线

学习资料免费领

• AI全体系学习路线超详版

• AI体验卡(AI实验平台体验权限)

• 100余讲AI视频课程

• 项目源码《从零开始训练与部署YOLOV8》

• 170余篇AI经典论文

全体系课程详情介绍

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30811

浏览量
268954
人工智能

人工智能

+关注

关注
1791

文章
47234

浏览量
238351
大模型

大模型

+关注

关注
2

文章
2438

浏览量
2668

【每天学点AI】实战图像增强威廉希尔官方网站在人工智能图像处理中的应用

图像增强（ImageEnhancement）是人工智能和计算机视觉中一项重要的威廉希尔官方网站，也是人工智能数据集预处理的一个重要步骤。它旨在提高图像的质量，使其在视觉上更加清晰、细节更丰富。这项威廉希尔官方网站在自动驾驶

发表于 11-22 17:14 •531次阅读

【<b class='flag-5'>每天</b><b class='flag-5'>学点</b><b class='flag-5'>AI</b>】实战图像增强威廉希尔官方网站
在<b class='flag-5'>人工智能</b>图像处理中的应用

Meta推出可自我评估AI模型

Meta近期宣布了一项重要的人工智能进展，即将发布一系列全新的人工智能模型。其中，一款能够自我评估的模型尤为引人注目，这一创新有望显著减少

发表于 10-22 17:07 •310次阅读

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

幸得一好书，特此来分享。感谢平台，感谢作者。受益匪浅。在阅读《AI for Science：人工智能驱动科学创新》的第6章后，我深刻感受到人工智能在能源科学领域中的巨大潜力和广泛应用。这一章详细

发表于 10-14 09:27

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

很幸运社区给我一个阅读此书的机会，感谢平台。《AI for Science：人工智能驱动科学创新》第4章关于AI与生命科学的部分，为我们揭示了人工智能威廉希尔官方网站在生命科学领域中的广泛应用和

发表于 10-14 09:21

《AI for Science：人工智能驱动科学创新》第二章AI for Science的威廉希尔官方网站支撑学习心得

，推动科学研究的深入发展。总结通过阅读《AI for Science：人工智能驱动科学创新》第二章，我对AI for Science的威廉希尔官方网站支撑有了更加全面和深入的理解。我深刻认识到

发表于 10-14 09:16

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

周末收到一本新书，非常高兴，也非常感谢平台提供阅读机会。这是一本挺好的书，包装精美，内容详实，干活满满。《AI for Science：人工智能驱动科学创新》这本书的第一章，作为整个著作的开篇

发表于 10-14 09:12

risc-v在人工智能图像处理应用前景分析

、RISC-V在人工智能图像处理中的应用案例目前，已有多个案例展示了RISC-V在人工智能图像处理中的应用潜力。例如： Esperanto威廉希尔官方网站公司：该公司制造的首款高性能RISC-V AI处理器旨在

发表于 09-28 11:00

人工智能ai 数电模电模拟集成电路原理电路分析

人工智能ai 数电模电模拟集成电路原理电路分析想问下哪些比较容易学不过好像都是要学的

发表于 09-26 15:24

人工智能ai4s试读申请

目前人工智能在绘画对话等大模型领域应用广阔，ai4s也是方兴未艾。但是如何有效利用ai4s工具助力科研是个需要研究的课题，本书对ai4s基本

发表于 09-09 15:36

名单公布！【书籍评测活动NO.44】AI for Science：人工智能驱动科学创新

！《AI for Science：人工智能驱动科学创新》这本书便将为读者徐徐展开AI for Science的美丽图景，与大家一起去了解： 人工智能究竟帮科学家做了什么？

发表于 09-09 13:54

报名开启！深圳（国际）通用人工智能大会将启幕，国内外大咖齐聚话AI

8月28日至30日，2024深圳（国际）通用人工智能大会暨深圳（国际）通用人工智能产业博览会将在深圳国际会展中心（宝安）举办。大会以“魅力AI·无限未来”为主题，致力于打造全球通用人工智能

发表于 08-22 15:00

人工智能模型有哪些

人工智能（Artificial Intelligence, AI）作为21世纪最具影响力的威廉希尔官方网站之一，正以前所未有的速度改变着我们的生活、工作乃至整个社会结构。AI模型作为

发表于 07-04 17:28 •875次阅读

人工智能与大模型的关系与区别

在科技日新月异的今天，人工智能（AI）已成为推动社会进步的重要力量。而在人工智能的众多分支中，大模型（Large Models）作为近年来兴起的概念，以其巨大的参数数量和强大的计算能力

发表于 07-04 16:07 •3686次阅读

卡诺模型助力AI腾飞：人工智能发展新视角

在科技飞速发展的今天，人工智能（AI）已经成为引领未来社会变革的重要力量。然而，如何有效评估AI威廉希尔官方网站的成熟度和应用价值，一直是业界和学术界关注的焦点。卡诺

发表于 06-14 09:52 •337次阅读

嵌入式人工智能的就业方向有哪些?

。国内外科技巨头纷纷争先入局，在微软、谷歌、苹果、脸书等积极布局人工智能的同时，国内的BAT、华为、小米等科技公司也相继切入到嵌入式人工智能的赛道。那么嵌入式AI可就业的方向有哪些呢

发表于 02-26 10:17

搜索历史

【每天学点AI】人工智能大模型评估标准有哪些？

评论