0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

【每天学点AI】人工智能大模型评估标准有哪些?

华清远见工控 2024-10-17 16:49 次阅读

OpenAI新模型o1号称编程能力8倍杀GPT-4o,MMLU媲美人类专家,MMLU是什么?评估大模型的标准是什么?

相信大家在阅读大模型相关文档的时候经常会看到MMLU,BBH,GSM8K,MATH,HumanEval,MBPP,C-Eval,CMMLU等等这些都是什么?大模型训练完成后,如何客观地评估其效果呢?

当然我们不能依靠主观判断,于是研究者们制定了一系列标准,用于测评大模型在不同数据集上的表现。而这些数据集( MMLU、C-Eval、GSM8K、MATH、HumanEval、MBPP、BBH 和 CMMLU),正是用于评估大模型性能的重要依据。

wKgaoWcQz5eARQUEAAGyTAwPZCY680.png

当然,它们也也可用于模型训练。

MMLU这个基准包含STEM(科学、威廉希尔官方网站 、工程、数学)、人文学科、社会学科等57个学科领域,难度从初级到高级不等。

wKgZoWcQz5eAR2TAAAG28-vYLGg926.png

C-Eval 是一个全面的中文基础模型评估套件,它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。

wKgZoWcQz5eAWDLKAAIDXISzVW8694.png

GSM8K(Grade School Math)是一个由OpenAI发布的数据集,有8.5K个高质量语言多样的小学数学问题组成。这些问题需要 2 到 8 个步骤来解决,解决方法主要是使用基本的算术运算(+ - / *)进行一连串的基本计算,以得出最终答案。

wKgaoWcQz5eAb5E9AAF4SUH2jqA445.png

虽然看起来很简单,但很多大模型的表现都不太好。

MATH是一个包含 12500 个数学竞赛问题的数据集,其中的每个问题都有一个完整的推导过程。

wKgZomcQz6KAL2nsAAKIjdVQXjY731.png

HumanEval是由 164 个简单编程问题组成,主要用来评估语言理解、算法和简单的数学。

wKgaomcQz6KAMaCFAAHS2H-Env0490.png

MBPP(Mostly Basic Python Programming)由大约 1000 个Python 编程问题组成,每个问题由任务描述、代码解决方案和 3 个自动化测试用例组成。

wKgZomcQz6KAbEVGAAGu9iWXZn8426.png

BBH的全称是BIG-Bench Hard,它是BIG-Bench数据集的一个子集,它专注于23个具有挑战性的任务,这些任务超出了当前语言模型的能力范围,BBH中的任务需要进行多步骤推理。

wKgZomcQz6GAfufmAAHGWG1ilKw764.png

CMMLU,一个全面的中文大模型评估数据集。它涵盖了67个主题,涉及自然科学、社会科学、工程、人文、以及常识等,就是中文版的MMLU。

wKgaomcQz6KAaST5AAIhd_uKnB8781.png

通过这些评测数据集和评估标准,我们可以从不同角度系统地评估大模型的性能、泛化能力和鲁棒性,为大模型的进一步研究和应用提供科学依据。

AI体系化学习路线

wKgaombzzxSAdyb-AAILSe8A5AM65.jpeg

学习资料免费领

• AI全体系学习路线超详版

• AI体验卡(AI实验平台体验权限)

• 100余讲AI视频课程

• 项目源码《从零开始训练与部署YOLOV8》

• 170余篇AI经典论文

全体系课程详情介绍

wKgaomcQz6KAd9SqAAJYAp3tiGg628.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30811

    浏览量

    268954
  • 人工智能
    +关注

    关注

    1791

    文章

    47234

    浏览量

    238351
  • 大模型
    +关注

    关注

    2

    文章

    2438

    浏览量

    2668
收藏 人收藏

    评论

    相关推荐

    每天学点AI】实战图像增强威廉希尔官方网站 在人工智能图像处理中的应用

    图像增强(ImageEnhancement)是人工智能和计算机视觉中一项重要的威廉希尔官方网站 ,也是人工智能数据集预处理的一个重要步骤。它旨在提高图像的质量,使其在视觉上更加清晰、细节更丰富。这项威廉希尔官方网站 在自动驾驶
    的头像 发表于 11-22 17:14 531次阅读
    【<b class='flag-5'>每天</b><b class='flag-5'>学点</b><b class='flag-5'>AI</b>】实战图像增强威廉希尔官方网站
在<b class='flag-5'>人工智能</b>图像处理中的应用

    Meta推出可自我评估AI模型

    Meta近期宣布了一项重要的人工智能进展,即将发布一系列全新的人工智能模型。其中,一款能够自我评估模型尤为引人注目,这一创新有望显著减少
    的头像 发表于 10-22 17:07 310次阅读

    AI for Science:人工智能驱动科学创新》第6章人AI与能源科学读后感

    幸得一好书,特此来分享。感谢平台,感谢作者。受益匪浅。 在阅读《AI for Science:人工智能驱动科学创新》的第6章后,我深刻感受到人工智能在能源科学领域中的巨大潜力和广泛应用。这一章详细
    发表于 10-14 09:27

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    很幸运社区给我一个阅读此书的机会,感谢平台。 《AI for Science:人工智能驱动科学创新》第4章关于AI与生命科学的部分,为我们揭示了人工智能威廉希尔官方网站 在生命科学领域中的广泛应用和
    发表于 10-14 09:21

    AI for Science:人工智能驱动科学创新》第二章AI for Science的威廉希尔官方网站 支撑学习心得

    ,推动科学研究的深入发展。 总结 通过阅读《AI for Science:人工智能驱动科学创新》第二章,我对AI for Science的威廉希尔官方网站 支撑了更加全面和深入的理解。我深刻认识到
    发表于 10-14 09:16

    AI for Science:人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

    周末收到一本新书,非常高兴,也非常感谢平台提供阅读机会。 这是一本挺好的书,包装精美,内容详实,干活满满。 《AI for Science:人工智能驱动科学创新》这本书的第一章,作为整个著作的开篇
    发表于 10-14 09:12

    risc-v在人工智能图像处理应用前景分析

    、RISC-V在人工智能图像处理中的应用案例 目前,已有多个案例展示了RISC-V在人工智能图像处理中的应用潜力。例如: Esperanto威廉希尔官方网站 公司 :该公司制造的首款高性能RISC-V AI处理器旨在
    发表于 09-28 11:00

    人工智能ai 数电 模电 模拟集成电路原理 电路分析

    人工智能ai 数电 模电 模拟集成电路原理 电路分析 想问下哪些比较容易学 不过好像都是要学的
    发表于 09-26 15:24

    人工智能ai4s试读申请

    目前人工智能在绘画对话等大模型领域应用广阔,ai4s也是方兴未艾。但是如何有效利用ai4s工具助力科研是个需要研究的课题,本书对ai4s基本
    发表于 09-09 15:36

    名单公布!【书籍评测活动NO.44】AI for Science:人工智能驱动科学创新

    ! 《AI for Science:人工智能驱动科学创新》 这本书便将为读者徐徐展开AI for Science的美丽图景,与大家一起去了解: 人工智能究竟帮科学家做了什么?
    发表于 09-09 13:54

    报名开启!深圳(国际)通用人工智能大会将启幕,国内外大咖齐聚话AI

    8月28日至30日,2024深圳(国际)通用人工智能大会暨深圳(国际)通用人工智能产业博览会将在深圳国际会展中心(宝安)举办。大会以“魅力AI·无限未来”为主题,致力于打造全球通用人工智能
    发表于 08-22 15:00

    人工智能模型哪些

    人工智能(Artificial Intelligence, AI)作为21世纪最具影响力的威廉希尔官方网站 之一,正以前所未有的速度改变着我们的生活、工作乃至整个社会结构。AI模型作为
    的头像 发表于 07-04 17:28 875次阅读

    人工智能与大模型的关系与区别

    在科技日新月异的今天,人工智能AI)已成为推动社会进步的重要力量。而在人工智能的众多分支中,大模型(Large Models)作为近年来兴起的概念,以其巨大的参数数量和强大的计算能力
    的头像 发表于 07-04 16:07 3686次阅读

    卡诺模型助力AI腾飞:人工智能发展新视角

    在科技飞速发展的今天,人工智能AI)已经成为引领未来社会变革的重要力量。然而,如何有效评估AI威廉希尔官方网站 的成熟度和应用价值,一直是业界和学术界关注的焦点。卡诺
    的头像 发表于 06-14 09:52 337次阅读

    嵌入式人工智能的就业方向哪些?

    。 国内外科技巨头纷纷争先入局,在微软、谷歌、苹果、脸书等积极布局人工智能的同时,国内的BAT、华为、小米等科技公司也相继切入到嵌入式人工智能的赛道。那么嵌入式AI可就业的方向哪些呢
    发表于 02-26 10:17