AI初创企业推MoE混合专家模型架构新品abab 6.5-电子发烧友网

AI初创企业推MoE混合专家模型架构新品abab 6.5

4 月 17 日，国内人工智能初创公司 MiniMax 稀宇科技宣布推出采用混合专家模型架构的 losoev 6.5 系列模型，其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。

losoev 6.5 系列包含两款模型：

losoev 6.5：拥有万亿级别的参数，可处理 200k tokens 的上下文长度；

losoev 6.5s：与 losoev 6.5 共享相同的训练威廉希尔官方网站和数据，但效率更高，同样支持 200k tokens 的上下文长度，且能够在 1 秒钟内处理近 3 万字的文本。

自今年 1 月份推出国内首款基于 MoE 架构的 losoev 6 模型以来，MiniMax 通过优化模型架构、重建数据管道、改进训练算法以及实施并行训练策略等手段，在加速模型扩展方面取得了显著进展。

在 200k token 的范围内，官方对 losoev 6.5 进行了业内常见的“大海捞针”测试，即将一句与原文无关的句子插入长文本中，然后通过自然语言询问模型，观察其能否准确识别出这句话。经过 891 次测试，losoev 6.5 均能准确回答问题。

losoev 6.5 和 losoev 6.5s 模型将逐步应用于 MiniMax 旗下的产品，如海螺 AI 和 MiniMax 开放平台。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4608

浏览量
92845
人工智能

人工智能

+关注

关注
1791

文章
47208

浏览量
238291
模型

模型

+关注

关注
1

文章
3229

浏览量
48813

企业AI模型部署攻略

当下，越来越多的企业开始探索和实施AI模型，以提升业务效率和竞争力。然而，AI模型的部署并非易事，需要企

发表于 12-23 10:31 •66次阅读

猎户星空发布Orion-MoE 8×7B大模型及AI数据宝AirDS

。 Orion-MoE 8×7B是猎户星空精心打造的开源混合架构专家大模型，该模型拥有高达8×7

发表于 11-29 13:57 •213次阅读

腾讯发布开源MoE大语言模型Hunyuan-Large

近日，腾讯公司宣布成功推出业界领先的开源MoE(Mixture of Experts，专家混合)大语言模型——Hunyuan-Large。这款模型

发表于 11-06 10:57 •299次阅读

浪潮信息发布“源2.0-M32”开源大模型

浪潮信息近日推出了革命性的“源2.0-M32”开源大模型。该模型在源2.0系列基础上，引入了“基于注意力机制的门控网络”威廉希尔官方网站，构建了一个包含32个专家的混合

发表于 05-29 09:08 •645次阅读

腾讯云大模型价格调整：混元-lite、混元-standard免费，混元-pro降价

据了解，腾讯混元大模型是腾讯全链路自研的万亿参数大模型，采用混合专家模型（MoE）结构，

发表于 05-23 17:05 •860次阅读

人大系初创公司智子引擎发布全新多模态大模型Awaker 1.0

人大系初创公司智子引擎近日震撼发布了新一代多模态大模型Awaker 1.0，这一里程碑式的成果标志着公司在通用人工智能（AGI）领域取得了重要突破。与前代ChatImg序列模型相比，Awaker 1.0凭借其独特的

发表于 05-06 09:59 •602次阅读

MOE与MOT：提升LLM效能的关键策略比较

MoE 与 MoT：在专家混合中（左），每个令牌都被路由到不同的专家前馈层。在令牌混合（右）中，每组内的令牌被

发表于 04-15 09:53 •872次阅读

AI初创企业Suno发布首款音乐AI生成模型SunoV3

美国人工智能初创企业Suno近日震撼发布其首款音乐AI生成模型——SunoV3。这款创新产品已正式登陆其官方网站，并向所有用户免费开放使用，标志着音乐创作领域迈入了全新的智能化时代。

发表于 03-26 09:17 •1110次阅读

英特尔与Arm联手助力初创企业开发Arm架构SoC

据介绍，此次合作旨在联合推动使用Intel 18A制程工艺研发Arm架构SoC的初创企业发展。英特尔和Arm将携手提供IP和制造及相关金融支持，助力初创

发表于 03-25 15:34 •401次阅读

微软支付6.5亿美元获得Inflection AI的AI模型授权

微软近日宣布向人工智能初创公司Inflection AI支付高达6.5亿美元的巨额资金，这一举动在业内引起了广泛关注。据悉，这笔资金主要用于获得Inflection AI的

发表于 03-25 10:39 •502次阅读

微软携手法国AI初创企业Mistral推动AI模型商业化

微软近日与法国人工智能初创企业Mistral达成合作协议，旨在推动AI模型的商业化应用。据悉，微软将提供全方位支持，帮助这家成立仅10个月的公司将其先进的

发表于 02-28 10:23 •530次阅读

昆仑万维发布新版MoE大语言模型天工2.0

昆仑万维科技今日震撼发布全新升级的「天工2.0」MoE大语言模型以及配套的新版「天工AI智能助手」APP。此次更新标志着国内首个搭载MoE架构

发表于 02-06 16:19 •1264次阅读

幻方量化发布了国内首个开源MoE大模型—DeepSeekMoE

幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 —— DeepSeekMoE，全新架构，免费商用。

发表于 01-23 11:28 •1518次阅读

对标OpenAI GPT-4，MiniMax国内首个MoE大语言模型全量上线

MoE 架构全称专家混合（Mixture-of-Experts），是一种集成方法，其中整个问题被分为多个子任务，并将针对每个子任务训练一组专家

发表于 01-16 15:34 •893次阅读

混合专家模型 (MoE)核心组件和训练方法介绍

随着 Mixtral 8x7B (announcement, model card) 的推出，一种称为混合专家模型 (Mixed Expert Models，简称 MoEs

发表于 01-13 09:37 •1240次阅读