摩尔线程预训练语言模型MusaBert荣登CLUE榜单TOP10-电子发烧友网

摩尔线程联合潞晨科技研发的预训练语言模型MusaBert（MUSA为摩尔线程提出的通用元计算架构），在12月16日的中文语言理解领域权威CLUE榜单上进入TOP 10，最终以82.889得分在CLUE1.1总排行榜中排名（除人类成绩以外）第9，并在AFQMC任务中以86.92分取得排名第一的成绩，这意味着摩尔线程AI在语义理解与匹配能力上超越了人类水平。同时，这也是潞晨科技的AI大模型开发系统Colossal-AI在自然语言处理领域应用的重要进展。

（2022年12月16日CLUE1.1总排行榜最新成绩）

相较于CLUE总排行榜TOP 10的其他中文预训练模型，MusaBert仅包含3亿参数量，是前十名中规模最小的模型，并且为单模型（single model），没有进行任何集成。此外，摩尔线程基于MusaBert的语义嵌入模型MusaSim在AFQMC任务上击败一众大规模模型，取得第一名，不仅为检索系统、分类对话等更深度语义理解研究打下坚固基石，也证明了摩尔线程在中文自然语言处理领域和低资源大模型训练方面的强大能力。

一直以来，语义理解都是NLP（自然语言处理）威廉希尔官方网站的重要目标，通过一系列AI算法，可将文本解析为结构化的、机器可读的意图与词槽信息。通常来说，训练数据的获取与处理、模型的迭代和训练等都是NLP威廉希尔官方网站的落地难点。MusaBert仅使用了极少的参数量便取得了比肩甚至超越百亿参数大模型的成绩，主要是得益于多方面获得的突破性进展：

▼威廉希尔官方网站层面：摩尔线程拥有“软硬一体”的威廉希尔官方网站能力，使得MusaBert能够从底到上进行优化；摩尔线程多功能GPU内置AI加速和并行计算等硬件模块，能够提供AI和科学计算在内的全栈功能，能够为AI推理计算加速、低资源大模型训练等应用场景提供通用、高性价比、节能环保的AI能力。

▼算法层面：MusaBert使用了潞晨科技的AI大模型开发系统Colossal-AI，在上游训练方面，充分发挥了该系统的易用性及强大的并行训练性能，同时MusaBert针对模型数据预处理使用的DataLoader进行了优化，可以在低资源的条件下快速处理大规模数据；在下游任务方面，摩尔线程通过采用合适的优化建模、在领域内进行数据增强以及在模型的训练优化中采用了先进的Adan优化器等方式，尽可能发掘和展现出预训练语言模型强大的语义理解能力。摩尔线程自研的语义嵌入模型MusaSim以MusaBert为基座模型，使用对比学习方法进行精调，并利用了摩尔线程收集的百万对有监督数据。得益于MusaBert和高质量的数据集，MusaSim不仅在语义相似度任务上超越了众多更大规模的模型，在意图识别、情绪分析等分类任务上，也能得到较好的效果。

▼数据层面：MusaBert除使用了摩尔线程自身收集的高质量语义相似数据以外，还使用了200GB悟道开源数据和80GB的CLUE社区数据，以及浪潮电子信息产业股份有限公司提供的1T高质量数据集。大规模高质量的数据使得模型在相对小的规模下仍然保持了较高的性能。

目前，MusaBert作为基座模型，已经应用于摩尔线程研发的智能客服与数字人等项目，并相继在下游语义相似度、情绪识别、阅读理解、声韵识别等领域落地。

为了更进一步降低大模型开发和应用的门槛，MusaBert代码现已开源到Colossal-AI仓库(https://github.com/hpcaitech/ColossalAI/tree/main/examples/language/roberta)，使用该脚本，可在短时间内训练出高质量的中文Bert模型。包括MusaBert和MusaSim在内的一系列高质量模型也将在近期开源以贡献中文NLP社区。此外，经摩尔线程与潞晨科技的严格测试，仅通过摩尔线程多功能GPU单卡，即可进行MusaBert甚至是更大规模的GPT2的训练，大大降低了预训练成本，这也为双方实现低资源大模型训练的共同愿景，迈出了坚实一步。

作为中文语言理解领域最具权威性的测评基准之一，CLUE 涵盖文本相似度、分类、自然语言推理、阅读理解等众多语义分析和理解类子任务，工业界和学术界纷纷用 CLUE 作为预训练算法能力的验证和衡量标准。此次进入CLUE榜单TOP 10，代表了摩尔线程与潞晨科技联合研发团队在中文预训练研究领域已达到业内领先水平。

展望未来，摩尔线程还将与潞晨科技紧密合作，着手更适当规模的自然语言大模型研究，充分利用上游数据，产出能力更强的模型并且开源。同时，保持算法和系统两个层面并行，持续优化大模型在摩尔线程多功能GPU上的训练能力，尤其在单张消费级显卡等低资源场景下的训练能力，可以大大降低使用大模型训练的门槛和成本，进一步促进AI民主化。

▼ 关于潞晨科技

潞晨科技是一家致力于“解放AI生产力”的全球性公司，核心产品面向大模型时代的通用深度学习系统 Colossal-AI，可实现高效快速部署AI大模型训练和推理，降低AI大模型应用成本。自开源以来，Colossal-AI已经多次在GitHub热榜位列世界第一，获得GitHub Star约七千颗，并成功入选SC、AAAI、PPoPP等国际AI与HPC顶级会议的官方教程。相关解决方案已成功在自动驾驶、云计算、零售、医药、芯片等行业知名厂商落地应用、广受好评。

▼ 关于摩尔线程

摩尔线程是一家以 GPU 芯片设计为主的集成电路高科技公司，专注于研发设计全功能 GPU 芯片及相关产品，能够为中国科技生态合作伙伴提供强大的计算加速能力。公司成立于 2020年10月，致力于创新面向元计算应用的新一代 GPU，构建融合视觉计算、3D 图形计算、科学计算及人工智能计算的综合计算平台，建立基于云原生 GPU计算的生态系统，助力驱动数字经济发展。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI算法

AI算法

+关注

关注
0

文章
251

浏览量
12283
自然语言处理

自然语言处理

+关注

关注
1

文章
619

浏览量
13575
摩尔线程

摩尔线程

+关注

关注
2

文章
200

浏览量
4592

原文标题：Colossal-AI助力，摩尔线程预训练语言模型MusaBert荣登CLUE榜单TOP10

文章出处：【微信号：moorethreads，微信公众号：摩尔线程】欢迎添加关注！文章转载请注明出处。

云知声荣登2024大模型企业TOP50榜单

近日，智领未来·向新而行—2024人工智能大模型产业大会在京召开，会上揭晓2024大模型企业TOP50榜单，云知声荣登

发表于 11-29 17:52 •523次阅读

云知学院荣登2024中国企培业模式创新TOP10榜单

近日，第13届国际培训产品博览会（简称“培博会”）在江苏昆山举行，展会期间公布2024培博会•培英奖评选结果，云知声旗下人工智能教育培训品牌——云知学院入选“2024中国企培业模式创新TOP10”榜单，商业价值获行业认可。

发表于 11-21 14:12 •265次阅读

摩尔线程与羽人科技完成大语言模型训练测试

（YuRen-7b）大语言模型的训练测试。测试结果显示，训练效率达到预期，夸娥千卡智算集群展现出了高度的兼容性和稳定性，为羽人科技未来的零代码训练

发表于 08-27 16:19 •549次阅读

大语言模型的预训练

能力，逐渐成为NLP领域的研究热点。大语言模型的预训练是这一威廉希尔官方网站发展的关键步骤，它通过在海量无标签数据上进行训练，使

发表于 07-11 10:11 •439次阅读

预训练模型的基本原理和应用

预训练模型（Pre-trained Model）是深度学习和机器学习领域中的一个重要概念，尤其是在自然语言处理（NLP）和计算机视觉（CV）等领域中得到了广泛应用。

发表于 07-03 18:20 •2920次阅读

摩尔线程与智谱AI完成大模型性能测试与适配

近日，摩尔线程与智谱AI在人工智能领域开展了一轮深入的合作，共同对GPU大模型进行了适配及性能测试。此次测试不仅涵盖了大模型的推理能力，还涉及了基于

发表于 06-14 16:40 •1093次阅读

摩尔线程与师者AI携手完成70亿参数教育AI大模型训练测试

近日，国内知名的GPU制造商摩尔线程与全学科教育AI大模型“师者AI”联合宣布，双方已成功完成了一项重要的大模型训练测试。此次测试依托

发表于 06-14 16:31 •598次阅读

摩尔线程和滴普科技完成大模型训练与推理适配

近日，摩尔线程与滴普科技宣布了一项重要合作成果。摩尔线程的夸娥（KUAE）千卡智算集群与滴普科技的企业大模型Deepexi已完成

发表于 05-30 10:14 •558次阅读

摩尔线程千卡智算集群与滴普企业大模型已完成训练及推理适配

近日，摩尔线程与国内领先的数据智能服务商滴普科技共同宣布，摩尔线程夸娥（KUAE）千卡智算集群与滴普企业大模型Deepexi已完成

发表于 05-29 10:28 •480次阅读

Nullmax荣登「中国人工智能与大数据产业最佳投资案例TOP10」榜单

5月10日，“投中榜·2023年度榜单”重磅揭晓。自动驾驶行业智变引领者Nullmax 凭借领先的威廉希尔官方网站实力、突出的量产表现及巨大的商业潜力，荣登「中国人工智能与大数据产业最佳投资案例 TOP

发表于 05-11 17:32 •594次阅读

【大语言模型：原理与工程实践】大语言模型的预训练

大语言模型的核心特点在于其庞大的参数量，这赋予了模型强大的学习容量，使其无需依赖微调即可适应各种下游任务，而更倾向于培养通用的处理能力。然而，随着学习容量的增加，对预

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础威廉希尔官方网站

全面剖析大语言模型的核心威廉希尔官方网站与基础知识。首先，概述自然语言的基本表示，这是理解大语言模型威廉希尔官方网站的前提。接着，详细介绍自然

发表于 05-05 12:17

摩尔线程助力AI大模型训练与计算升级，共建美好数字化未来

此外，在中关村国际威廉希尔官方网站交易大会高精尖威廉希尔官方网站产品首发会上，摩尔线程与无问芯穹联合宣布，双方正致力于开发基于夸娥千卡智算集群的“MT-infini-3B”合作大模型。摩尔

发表于 04-28 16:42 •1108次阅读

中颖电子入选Fabless 100排行榜TOP10微控制器公司榜单

中颖电子入选 AspenCore 2024中国IC设计Fabless 100排行榜TOP10微控制器公司榜单

发表于 04-01 14:12 •575次阅读

思岚科技荣获“楼宇黑科技TOP10”，助力智慧楼宇新变革

的威廉希尔官方网站创新能力、产品前瞻能力、方案落地能力、低碳战略能力和市场合作能力5大维度进行调研和公开投票，思岚科技凭借在楼宇科技上带来的智慧变革荣登“2023楼宇黑科技TOP10”榜单。左一：思岚科技CEO 陈士凯思岚科技是

发表于 01-17 09:57 •717次阅读