0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI初创企业推MoE混合专家模型架构新品abab 6.5

微云疏影 来源:综合整理 作者:综合整理 2024-04-17 15:06 次阅读

4 月 17 日,国内人工智能初创公司 MiniMax 稀宇科技宣布推出采用混合专家模型架构的 losoev 6.5 系列模型,其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。

losoev 6.5 系列包含两款模型:

losoev 6.5:拥有万亿级别的参数,可处理 200k tokens 的上下文长度;

losoev 6.5s:与 losoev 6.5 共享相同的训练威廉希尔官方网站 和数据,但效率更高,同样支持 200k tokens 的上下文长度,且能够在 1 秒钟内处理近 3 万字的文本。

自今年 1 月份推出国内首款基于 MoE 架构的 losoev 6 模型以来,MiniMax 通过优化模型架构、重建数据管道、改进训练算法以及实施并行训练策略等手段,在加速模型扩展方面取得了显著进展。

在 200k token 的范围内,官方对 losoev 6.5 进行了业内常见的“大海捞针”测试,即将一句与原文无关的句子插入长文本中,然后通过自然语言询问模型,观察其能否准确识别出这句话。经过 891 次测试,losoev 6.5 均能准确回答问题。

losoev 6.5 和 losoev 6.5s 模型将逐步应用于 MiniMax 旗下的产品,如海螺 AI 和 MiniMax 开放平台。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4608

    浏览量

    92845
  • 人工智能
    +关注

    关注

    1791

    文章

    47208

    浏览量

    238291
  • 模型
    +关注

    关注

    1

    文章

    3229

    浏览量

    48813
收藏 人收藏

    评论

    相关推荐

    企业AI模型部署攻略

    当下,越来越多的企业开始探索和实施AI模型,以提升业务效率和竞争力。然而,AI模型的部署并非易事,需要
    的头像 发表于 12-23 10:31 66次阅读

    猎户星空发布Orion-MoE 8×7B大模型AI数据宝AirDS

    。 Orion-MoE 8×7B是猎户星空精心打造的开源混合架构专家模型,该模型拥有高达8×7
    的头像 发表于 11-29 13:57 213次阅读

    腾讯发布开源MoE大语言模型Hunyuan-Large

    近日,腾讯公司宣布成功推出业界领先的开源MoE(Mixture of Experts,专家混合)大语言模型——Hunyuan-Large。这款模型
    的头像 发表于 11-06 10:57 299次阅读

    浪潮信息发布“源2.0-M32”开源大模型

    浪潮信息近日推出了革命性的“源2.0-M32”开源大模型。该模型在源2.0系列基础上,引入了“基于注意力机制的门控网络”威廉希尔官方网站 ,构建了一个包含32个专家混合
    的头像 发表于 05-29 09:08 645次阅读

    腾讯云大模型价格调整:混元-lite、混元-standard免费,混元-pro降价

    据了解,腾讯混元大模型是腾讯全链路自研的万亿参数大模型,采用混合专家模型MoE)结构,
    的头像 发表于 05-23 17:05 860次阅读

    人大系初创公司智子引擎发布全新多模态大模型Awaker 1.0

    人大系初创公司智子引擎近日震撼发布了新一代多模态大模型Awaker 1.0,这一里程碑式的成果标志着公司在通用人工智能(AGI)领域取得了重要突破。与前代ChatImg序列模型相比,Awaker 1.0凭借其独特的
    的头像 发表于 05-06 09:59 602次阅读

    MOE与MOT:提升LLM效能的关键策略比较

    MoE 与 MoT:在专家混合中(左),每个令牌都被路由到不同的专家前馈层。在令牌混合(右)中,每组内的令牌被
    的头像 发表于 04-15 09:53 872次阅读
    <b class='flag-5'>MOE</b>与MOT:提升LLM效能的关键策略比较

    AI初创企业Suno发布首款音乐AI生成模型SunoV3

    美国人工智能初创企业Suno近日震撼发布其首款音乐AI生成模型——SunoV3。这款创新产品已正式登陆其官方网站,并向所有用户免费开放使用,标志着音乐创作领域迈入了全新的智能化时代。
    的头像 发表于 03-26 09:17 1110次阅读

    英特尔与Arm联手助力初创企业开发Arm架构SoC

    据介绍,此次合作旨在联合推动使用Intel 18A制程工艺研发Arm架构SoC的初创企业发展。英特尔和Arm将携手提供IP和制造及相关金融支持,助力初创
    的头像 发表于 03-25 15:34 401次阅读

    微软支付6.5亿美元获得Inflection AIAI模型授权

    微软近日宣布向人工智能初创公司Inflection AI支付高达6.5亿美元的巨额资金,这一举动在业内引起了广泛关注。据悉,这笔资金主要用于获得Inflection AI
    的头像 发表于 03-25 10:39 502次阅读

    微软携手法国AI初创企业Mistral推动AI模型商业化

    微软近日与法国人工智能初创企业Mistral达成合作协议,旨在推动AI模型的商业化应用。据悉,微软将提供全方位支持,帮助这家成立仅10个月的公司将其先进的
    的头像 发表于 02-28 10:23 530次阅读

    昆仑万维发布新版MoE大语言模型天工2.0

    昆仑万维科技今日震撼发布全新升级的「天工2.0」MoE大语言模型以及配套的新版「天工AI智能助手」APP。此次更新标志着国内首个搭载MoE架构
    的头像 发表于 02-06 16:19 1264次阅读

    幻方量化发布了国内首个开源MoE模型—DeepSeekMoE

    幻方量化旗下组织深度求索发布了国内首个开源 MoE模型 —— DeepSeekMoE,全新架构,免费商用。
    的头像 发表于 01-23 11:28 1518次阅读
    幻方量化发布了国内首个开源<b class='flag-5'>MoE</b>大<b class='flag-5'>模型</b>—DeepSeekMoE

    对标OpenAI GPT-4,MiniMax国内首个MoE大语言模型全量上线

    MoE 架构全称专家混合(Mixture-of-Experts),是一种集成方法,其中整个问题被分为多个子任务,并将针对每个子任务训练一组专家
    的头像 发表于 01-16 15:34 893次阅读
    对标OpenAI GPT-4,MiniMax国内首个<b class='flag-5'>MoE</b>大语言<b class='flag-5'>模型</b>全量上线

    混合专家模型 (MoE)核心组件和训练方法介绍

    随着 Mixtral 8x7B (announcement, model card) 的推出,一种称为混合专家模型 (Mixed Expert Models,简称 MoEs
    的头像 发表于 01-13 09:37 1240次阅读
    <b class='flag-5'>混合</b><b class='flag-5'>专家</b><b class='flag-5'>模型</b> (<b class='flag-5'>MoE</b>)核心组件和训练方法介绍