0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浪潮信息发布“源”Yuan-EB助力RAG检索精度新高

浪潮AIHPC 来源:浪潮AIHPC 2024-11-26 13:54 次阅读

近日,浪潮信息发布 “源”Yuan-EB(Yuan-embedding-1.0,嵌入模型),在C-MTEB榜单中斩获检索任务第一名,以78.41的平均精度刷新大模型RAG检索最高成绩,将基于元脑企智EPAI为构建企业知识库提供更高效、精准的知识向量化能力支撑,助力用户使用领先的RAG威廉希尔官方网站 加速企业知识资产的价值释放。

2a0c093e-a659-11ef-93f3-92fbcf53809c.png

“源”Yuan-EB 在HuggingFace的C-MTEB榜单中排名第一

Yuan-EB(版本号Yuan-embedding-1.0) 是专为增强中文文本检索能力而设计的嵌入模型(也称Embedding模型),在 “源2.0” 大模型的工作基础上,创新性地采用了“源2.0-M32”大模型进行数据重写与合成,并通过索引威廉希尔官方网站 、样本排序等系列方法完成高质量微调数据集构建,能够有效提升RAG系统的检索精度。

C-MTEB是目前业内最权威的嵌入模型测试榜单。其中,检索任务(Retrieval)是检索增强生成(RAG)场景下最为重要、应用最广泛的任务能力,考察的是Embedding模型从大量的数据集中找到并返回与给定查询最相关或最匹配的信息的过程。“源”Yuan-EB基于该任务提供的医疗、新闻、电商、娱乐等8个中文文本数据集,实现了业界领先的海量文本检索精度。

2a18dba0-a659-11ef-93f3-92fbcf53809c.png

C-MTEB榜单Retrieval任务提供8个测试数据集

“源” Yuan-EB 助力RAG检索精度新高

嵌入模型在RAG流程中扮演着关键角色,它能够将复杂的高维数据(例如文本、图像或音频)转换为机器可理解的向量形式,直接决定了RAG检索的精准性和效率。

2a3da4ee-a659-11ef-93f3-92fbcf53809c.png

“源”Yuan-EB通过数据准备与模型微调两个方面的威廉希尔官方网站 创新,实现了模型精度的大幅提升:

■ 在数据方面,基于“源2.0”微调阶段的问答数据进行清洗与筛选,构建问题(query)与文本(corpus)数据集;使用“源2.0-M32”对C-MTEB 训练数据进行重写与合成,通过索引威廉希尔官方网站 与排序模型进行高效的难负样本提取,完成大规模难负例样本挖掘,形成高质量微调数据集;

■ 在微调方面,通过两个阶段的领先微调方法实现模型能力提升。第一阶段,使用各个领域(医疗、新闻、长文本、娱乐等方向)的大规模数据进行对比学习训练;第二阶段,采用“源2.0-M32”生成的合成数据进一步微调,并使用MRL方法完成“源”Yuan-EB训练;

“源”Yuan-EB为用户提供了大模型企业知识库应用开发的最优模型选择,能够在 RAG流程的多个方面起到显著的精度提升,包括信息检索的准确性、处理大规模数据的效率、消除语义歧义、降低计算成本、增强对长文档的处理能力以及模型鲁棒性等,最大化提升RAG流程的整体性能和应用效果。

元脑企智EPAI集成“源”Yuan-EB,加速知识库构建与性能提升

目前,“源”Yuan-EB已经在开源社区和企业大模型开发平台元脑企智EPAI中全面开放下载。用户可以在元脑企智EPAI平台中快速使用“源”Yuan-EB,并结合EPAI自研的多阶段RAG威廉希尔官方网站 ,零代码、低成本地基于企业数据构建大模型知识库应用。

企业大模型开发平台“元脑企智”EPAI(Enterprise Platform of AI),是浪潮信息为企业AI大模型落地应用打造的高效、易用、安全的端到端开发平台,提供数据准备、模型训练、知识检索、应用框架等系列工具,支持调度多元算力和多模算法,帮助企业高效开发部署生成式AI应用、打造智能生产力。

元脑企智EPAI已经支持超过13种类型文档的信息识别与提取,结合创新的多级混合检索策略,有效提升元脑企智EPAI在管理、解析、检索知识库与生成内容方面的最终效果,帮助企业用户实现基于私有数据、行业数据下的精准检索、精准问答,确保专业场景下大模型生成内容的准确性和可靠性,加速大模型创新力释放。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 浪潮
    +关注

    关注

    1

    文章

    458

    浏览量

    23852
  • 开源
    +关注

    关注

    3

    文章

    3323

    浏览量

    42475
  • 大模型
    +关注

    关注

    2

    文章

    2427

    浏览量

    2651

原文标题:浪潮信息发布“源”Yuan-EB,刷新大模型RAG检索精度纪录!

文章出处:【微信号:浪潮AIHPC,微信公众号:浪潮AIHPC】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    借助浪潮信息元脑企智EPAI高效创建大模型RAG

    生成能力,提高生成质量和可靠性。但企业构建知识检索系统并非易事,通常面临开发门槛高、生成内容差等难题。而借助浪潮信息元脑企智EPAI企业大模型开发平台,企业仅需三步即可高效创建大模型RAG,让企业内部积累的大量数据得到有效利用,
    的头像 发表于 12-19 14:32 147次阅读
    借助<b class='flag-5'>浪潮信息</b>元脑企智EPAI高效创建大模型<b class='flag-5'>RAG</b>

    浪潮信息源2.0大模型与百度PaddleNLP全面适配

    近日,浪潮信息宣布其开源大模型2.0已全面适配百度PaddleNLP。这一举措标志着大模型开发生态正加速进化,为用户提供了更加便捷、高效的大模型应用体验。
    的头像 发表于 10-17 18:15 514次阅读

    浪潮信息:元脑企智EPAI助力金融大模型快速落地

    浪潮信息在AI算力底座建设、大模型开发领域积累的成熟、成功经验工具化,助力金融机构又快、又稳地部署生成式AI应用,助力金融数智化跨越式发展。
    的头像 发表于 09-20 16:07 344次阅读
    <b class='flag-5'>浪潮信息</b>:元脑企智EPAI<b class='flag-5'>助力</b>金融大模型快速落地

    浪潮信息推出AIGC存储解决方案

    近日,在科技创新的浪潮中,浪潮信息成功举办了“元脑中国行”全国巡展的杭州站活动,此次盛会不仅汇聚了业界的精英与目光,更见证了浪潮信息在AIGC(人工智能生成内容)领域的一次重大突破。会上,浪潮
    的头像 发表于 07-03 11:16 715次阅读

    浪潮信息重磅发布2.0-M32”开源大模型

    浪潮信息近日发布了一款全新的开源大模型——“2.0-M32”。这款大模型在“2.0”系列大模型的基础上,进行了深度的威廉希尔官方网站 创新与升级。
    的头像 发表于 06-05 14:50 784次阅读

    浪潮信息与北京伙伴共筑AI新生态

    近日,2024浪潮信息区域ISP伙伴战略签约仪式在京圆满落幕。此次盛会,浪潮信息与航天星桥、中天瑞合、圣世博泰、浩然泰同、浩普诚华、众创佳业等20家北京元脑生态伙伴共襄盛举,签署了战略合作协议。
    的头像 发表于 05-31 11:33 743次阅读

    浪潮信息发布2.0-M32开源大模型,模算效率大幅提升

    5月28日,浪潮信息发布2.0-M32”开源大模型。“2.0-M32”在基于”2.0”系列大模型已有工作基础上,创新性地提出和采用了
    的头像 发表于 05-29 09:34 423次阅读
    <b class='flag-5'>浪潮信息</b><b class='flag-5'>发布</b><b class='flag-5'>源</b>2.0-M32开源大模型,模算效率大幅提升

    浪潮信息发布2.0-M32”开源大模型

    浪潮信息近日推出了革命性的“2.0-M32”开源大模型。该模型在2.0系列基础上,引入了“基于注意力机制的门控网络”威廉希尔官方网站 ,构建了一个包含32个专家的混合专家模型(MoE),有效提升了模型算力效率。
    的头像 发表于 05-29 09:08 647次阅读

    浪潮信息发布AS13000G7-N系列分布式全闪存储

    浪潮信息近日推出了专为大型AI模型优化的AS13000G7-N系列分布式全闪存储。该系列基于浪潮信息自研的分布式文件系统,结合新一代数据加速引擎DataTurbo,为用户提供卓越的存储解决方案。
    的头像 发表于 05-14 10:03 562次阅读

    【中心动态】 走进浪潮信息

    5月8日,RISC-V国际人才培养认证中心主任蒋学刚一行,到访浪潮电子信息产业股份有限公司(以下简称“浪潮信息”),受到深圳区域副总经理段青云、产品经理陶耀民的热情接待。浪潮信息是全球
    的头像 发表于 05-13 17:42 448次阅读
    【中心动态】 走进<b class='flag-5'>浪潮信息</b>

    浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列

    近日,浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列。该系列依托浪潮信息自研分布式文件系统,搭载新一代数据加速引擎DataTurbo,
    的头像 发表于 05-08 09:38 560次阅读
    <b class='flag-5'>浪潮信息</b><b class='flag-5'>发布</b>为大模型专门优化的分布式全闪存储AS13000G7-N系列

    浪潮信息发布企业大模型开发平台“元脑企智”EPAI

    4月17日,在2024浪潮信息生态伙伴大会(IPF2024)上,浪潮信息重磅发布企业大模型开发平台“元脑企智”EPAI(Enterprise Platform of AI),为企业AI大模型落地
    的头像 发表于 04-18 10:12 384次阅读
    <b class='flag-5'>浪潮信息</b><b class='flag-5'>发布</b>企业大模型开发平台“元脑企智”EPAI

    浪潮信息与英特尔合作推出一种大模型效率工具“YuanChat”

    3月26日,浪潮信息与英特尔正式宣布,浪潮信息2.0系列基础大模型”已和最新的英特尔® 酷睿™ Ultra处理器平台完成适配,本地推理速度提升100%。
    的头像 发表于 03-27 13:50 629次阅读
    <b class='flag-5'>浪潮信息</b>与英特尔合作推出一种大模型效率工具“YuanChat”

    智邦国际与KeyarchOS完成浪潮信息澎湃威廉希尔官方网站 认证

    北京2024年1月24日 /美通社/ -- 日前,北京智邦国际软件威廉希尔官方网站 有限公司(简称智邦国际)与KeyarchOS完成浪潮信息澎湃威廉希尔官方网站 认证,经双方测试,智邦国际墨工湖智能制造MOM平台与浪潮信息
    的头像 发表于 01-25 13:51 440次阅读
    智邦国际与KeyarchOS完成<b class='flag-5'>浪潮信息</b>澎湃威廉希尔官方网站
认证

    仪电云云操作系统获得浪潮信息澎湃威廉希尔官方网站 认证

    浪潮信息希望通过此种方式与生态合作伙伴紧密互动,降低客户TCO (总体拥有成本)、缩减投产时间并促使产品和方案不断进步,进而助力各行业依托浪潮信息的存储平台实施数字化、智能化转型。
    的头像 发表于 12-27 15:35 775次阅读