0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

可商用多语言聊天LLM开源,性能直逼GPT-4

OSC开源社区 来源:OSC开源社区 2023-05-25 11:14 次阅读

SambaNova 与 Together 两家公司合作开源了可商用的 BLOOMChat,一个 1760 亿参数的多语言聊天大语言模型 (LLM)。由 BLOOM (176B) 在助理式的对话数据集上进行指导调整,并支持多种语言的对话、问题回答和生成性答案。

根据介绍,BLOOMChat 是一个新的、开放的、多语言的聊天 LLM。SambaNova 和 Together 使用 SambaNova 独特的可重构数据流架构在 SambaNova DataScale 系统上训练了 BLOOMChat;其建立在 BigScience 组织的 BLOOM 之上,并在 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 上进行了微调。目前,BLOOM 已经是最大的多语言开放模型,在 46 种语言上进行了训练。

在针对英语、中文、法语、阿拉伯语、西班牙语、印度语这 6 种语言的评测中,GPT-4 的胜率为 54.75%,BLOOMChat 的胜率为 45.25%,稍弱于 GPT-4。但与其它 4 种主流的开源聊天 LLM 相比,BLOOMChat 在 65.92% 的时间内表现更优。且在使用 BLOOMChat 进行跨语言 NLP 任务的初步研究中,BLOOMChat 在 WMT 翻译基准中的表现要优于其他 BLOOM 变体和主流开源聊天模型。

“我们确实想指出,与我们比较的这些模型中,有些并不适合多语言环境。但由于开源社区中没有替代品,所以才有了现在的比较。我们的研究结果表明,使用正确的威廉希尔官方网站 ,可以在开源 LLM 之上构建以实现强大的多语言聊天功能。我们希望我们的研究结果和 BLOOMChat checkpoint 的发布能够为开源社区的持续讨论做出贡献,并激发 LLM 领域的进一步发展。”

项目团队使用定性和定量措施来评估了 BLOOMChat 的多语言聊天能力以及跨语言任务能力。共做了 3 种不同场景的实验测评,评测了英语、中文、阿拉伯语、法语、西班牙语和印度语。

实验一:人类偏好排序

旨在将 BLOOMChat 模型在多种语言中的聊天能力与现有的开源模型以及选定的封闭源模型进行比较。使用了 “OpenAssistant Conversations”附录 E 中的 22 个英文问题作为基准。首先让一些人类志愿者将这 22 个英文问题手动翻译成他们各自的母语;然后让另一组不同的志愿者,在匿名的前提下评价每个模型所给出的回答。

将 BLOOMChat 与 OpenAssistant-30B、LLaMA-Adapter-V2-65B 和 BLOOMZ (176B) 三种开源模型进行了比较:

586afb58-fa9a-11ed-90ce-dac502259ad0.png

51 名志愿者在所有模型和 6 种语言中共提交了 1158 次比较。如上图所示,BLOOMChat (65.92%) 明显优于其它几个开源模型。

与GPT-4 相比:

587f9e14-fa9a-11ed-90ce-dac502259ad0.png

实验二:模型质量评估

此实验旨在验证 BLOOMChat 生成的多种语言文本的质量。

5894d23e-fa9a-11ed-90ce-dac502259ad0.png

81.8% 的回答被归类为 “正确” 或 “可接受但有轻微缺陷”。尽管只在英语数据集上进行了微调,但 BLOOMChat 在每种语言中都获得了超过 70% 的 “正确” 或 “可接受” 评级。

实验三:WMT 翻译任务

为了初步了解模型解决跨语言 NLP 任务的能力,评估了模型在 WMT 翻译任务上的翻译能力。

58b8ddbe-fa9a-11ed-90ce-dac502259ad0.png

总体而言,BLOOMChat 在翻译任务中的表现明显优于其他 BLOOM 变体和开源聊天模型,但和 GPT-4 还有一定差距。

此外,BLOOMChat 团队也坦承了一些该模型的局限性:

BLOOMChat 有时可能会生成听起来合理但事实不正确或与主题无关的回复信息。

BLOOMChat 可能在单个回复中无意间切换语言,影响输出的连贯性和可理解性。

BLOOMChat 可能会产生重复的短语或句子,导致回复内容缺乏吸引力和有效信息

BLOOMChat 在生成代码或解决复杂数学问题方面的性能可能会受到限制。

BLOOMChat 可能无意中生成含有不适当或有害内容的回复。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3333

    浏览量

    42477
  • 语言模型
    +关注

    关注

    0

    文章

    522

    浏览量

    10271
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24692
  • LLM
    LLM
    +关注

    关注

    0

    文章

    286

    浏览量

    327

原文标题:可商用多语言聊天LLM开源,性能直逼GPT-4

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Llama 3 与 GPT-4 比较

    沿。 一、威廉希尔官方网站 架构 Llama 3和GPT-4都是基于深度学习的自然语言处理(NLP)模型,但它们的设计理念和威廉希尔官方网站 细节有所不同。 Llama 3 采用了一种创新的混合架构,结合了传统的Transformer模型和最新的神经网络威廉希尔官方网站 。这种架构使得Llama 3在处理复杂的
    的头像 发表于 10-27 14:17 336次阅读

    ChatGPT 的多语言支持特点

    )威廉希尔官方网站 迎来了巨大的挑战和机遇。ChatGPT,作为一个领先的语言模型,其多语言支持的特点成为了它在众多应用场景中不可或缺的优势。 1. 多语言理解能力 ChatGPT 的多语言支持首先
    的头像 发表于 10-25 17:30 772次阅读

    llm模型和chatGPT的区别

    ,有许多不同的LLM模型,如BERT、GPT、T5等。 ChatGPT是一种基于GPT(Generative Pre-trained Transformer)模型的聊天机器人。
    的头像 发表于 07-09 09:55 1047次阅读

    OpenAI推出新模型CriticGPT,用GPT-4自我纠错

    基于GPT-4的模型——CriticGPT,这款模型专为捕获ChatGPT代码输出中的错误而设计,其独特的作用在于,让人们能够用GPT-4来查找GPT-4的错误。
    的头像 发表于 06-29 09:55 546次阅读

    OpenAI API Key获取:开发人员申请GPT-4 API Key教程

      OpenAI的GPT-4模型因其卓越的自然语言理解和生成能力,成为了许多开发者的首选工具。获取GPT-4 API Key并将其应用于项目,如开发一个ChatGPT聊天应用,不仅是实
    的头像 发表于 06-24 17:40 2354次阅读
    OpenAI API Key获取:开发人员申请<b class='flag-5'>GPT-4</b> API Key教程

    开发者如何调用OpenAI的GPT-4o API以及价格详情指南

    ,高达每分钟1000万字符。 速度 :GPT-4o的速度是GPT-4 Turbo的两倍。 视觉能力 :在视觉能力相关的评估中,GPT-4o表现优于GPT-4 Turbo。
    的头像 发表于 05-29 16:00 1.1w次阅读
    开发者如何调用OpenAI的<b class='flag-5'>GPT-4</b>o API以及价格详情指南

    阿里云正式发布通义千问2.5,中文性能全面赶超GPT-4 Turbo

    在通义大模型发布一周年之际,阿里云迈出了历史性的一步。近日,阿里云正式发布通义千问2.5版本,其性能全面超越GPT-4 Turbo,荣登中文大模型之巅。
    的头像 发表于 05-13 11:16 972次阅读

    阿里云发布通义千问2.5大模型,多项能力超越GPT-4

    阿里云隆重推出了通义千问 2.5 版,宣称其“威廉希尔官方网站 进步,全面超越GPT-4”,尤其是在中文环境中的多种任务(如文本理解、文本生成、知识问答及生活建议、临时聊天及对话以及安全风险评估)方面表现出色,超越了GPT-4
    的头像 发表于 05-09 14:17 955次阅读

    这个多语言包 怎么搜不到

    大家好,这个多语言包怎么搜不到 seven language lib 谁有离线包不 感谢分享,
    发表于 03-24 10:06

    微软Copilot全面更新为OpenAI的GPT-4 Turbo模型

    起初,Copilot作为Bing Chat AI助手推出,初期采用GPT-3.5模型,随后升级至GPT-4取得显著进步,如今再次更新至性能卓越的GPT-4 Turbo模型,这无疑将使得
    的头像 发表于 03-13 13:42 724次阅读

    语言模型(LLMs)如何处理多语言输入问题

    研究者们提出了一个框架来描述LLMs在处理多语言输入时的内部处理过程,并探讨了模型中是否存在特定于语言的神经元。
    发表于 03-07 14:44 616次阅读
    大<b class='flag-5'>语言</b>模型(LLMs)如何处理<b class='flag-5'>多语言</b>输入问题

    新火种AI|秒杀GPT-4,狙杀GPT-5,横空出世的Claude 3振奋人心!

    3的出现意味着打开了一个全新的世界,其系列模型在推理,数学,编码,多语言理解和视觉方面,都树立了全新的行业新基准。 也正是因为Claude 3的出现,全球最强AI模型一夜易主,曾经被认为不可一世
    的头像 发表于 03-06 22:22 639次阅读
    新火种AI|秒杀<b class='flag-5'>GPT-4</b>,狙杀<b class='flag-5'>GPT</b>-5,横空出世的Claude 3振奋人心!

    OpenAI推出ChatGPT新功能:朗读,支持37种语言,兼容GPT-4GPT-3

    据悉,“朗读”功能支持37种语言,且能够自主识别文本类型并对应相应的发音。值得关注的是,该功能对GPT-4以及GPT-3.5版本的ChatGPT均适用。此举彰显了OpenAI致力于“多模态交互”(multimodal capab
    的头像 发表于 03-05 15:48 917次阅读

    全球最强大模型易主,GPT-4被超越

    近日,AI领域的领军企业Anthropic宣布推出全新的Claude 3系列模型,其中包括最强版Claude 3 Opus。据该公司称,Claude 3系列在推理、数学、编码、多语言理解和视觉方面全面超越了包括GPT-4在内的所有大型模型,重新树立了行业基准。
    的头像 发表于 03-05 09:58 650次阅读

    Anthropic推出Claude 3系列模型,全面超越GPT-4,树立AI新标杆

    近日,AI领域的领军企业Anthropic震撼发布了全新的Claude 3系列模型,该系列模型在多模态和语言能力等关键领域展现出卓越性能,成功击败了此前被广泛认为是全球最强AI模型的GPT-4,树立了新的行业基准。
    的头像 发表于 03-05 09:49 680次阅读