0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

“伶荔”(Linly) 开源大规模中文语言模型

OSC开源社区 来源:OSC开源社区 2023-05-04 10:29 次阅读

为了开发高性能中文基础模型,填补中文基础模型百亿到千亿级预训练参数的空白,大数据系统计算威廉希尔官方网站 国家工程实验室团队在人工智能项目伶荔(Linly)框架下,推出了伶荔说系列中文语言大模型,目前包含中文基础模型和对话模型。

其中,中文基础模型以 LLaMA 为底座,利用中文和中英平行增量预训练,将它在英文上强大语言能力迁移到中文上。更进一步,汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了 Linly-ChatFlow 对话模型。

0cbaa256-e89f-11ed-ab56-dac502259ad0.png

根据介绍,相比已有的中文开源模型,伶荔模型具有以下优势:

在 32*A100 GPU 上训练了不同量级和功能的中文模型,对模型充分训练并提供强大的 baseline。据知,33B 的 Linly-Chinese-LLAMA 是目前最大的中文 LLaMA 模型。

公开所有训练数据、代码、参数细节以及实验结果,确保项目的可复现性,用户可以选择合适的资源直接用于自己的流程中。

项目具有高兼容性和易用性,提供可用于 CUDA 和 CPU 的量化推理框架,并支持 Huggingface 格式。

目前公开可用的模型有:

Linly-Chinese-LLaMA:中文基础模型,基于 LLaMA 在高质量中文语料上增量训练强化中文语言能力,现已开放 7B、13B 和 33B 量级,65B 正在训练中。

Linly-ChatFlow:中文对话模型,在 400 万指令数据集合上对中文基础模型指令精调,现已开放 7B、13B 对话模型。

Linly-ChatFlow-int4 :ChatFlow 4-bit 量化版本,用于在 CPU 上部署模型推理。

进行中的项目:

Linly-Chinese-BLOOM:基于 BLOOM 中文增量训练的中文基础模型,包含 7B 和 175B 模型量级,可用于商业场景。

项目特点

Linly 项目具有以下特点:

1. 大规模中文增量训练,利用翻译数据提速中文模型收敛

在训练数据方面,项目尽可能全面的收集了各类中文语料和指令数据。无监督训练使用了上亿条高质量的公开中文数据,包括新闻、百科、文学、科学文献等类型。和通常的无监督预训练不同,项目在训练初期加入了大量中英文平行语料,帮助模型将英文能力快速迁移到中文上。

在指令精调阶段,项目汇总了开源社区的指令数据资源,包括多轮对话、多语言指令、GPT4/ChatGPT 问答、思维链数据等等,经过筛选后使用 500 万条数据进行指令精调得到 Linly-ChatFlow 模型。训练使用的数据集也在项目里提供。

训练流程如图所示:

0cc77404-e89f-11ed-ab56-dac502259ad0.png

2. 全参数训练,覆盖多个模型量级

目前基于 LLaMA 的中文模型通常使用 LoRA 方法进行训练,LoRA 冻结预训练的模型参数,通过往模型中加入额外的网络层,并只训练这些新增的网络层参数,来实现快速适配。虽然 LoRA 能够提升训练速度且降低设备要求,但性能上限低于全参数训练。为了使模型获得尽可能强的中文语言能力,该项目对所有参数量级都采用全参数训练,开销大约是 LoRA 的 3-5 倍。

伶荔语言模型利用 TencentPretrain 多模态预训练框架,集成 DeepSpeed ZeRO3 以 FP16 流水线并行训练。目前已开放 7B、13B、33B 模型权重,65B 模型正在训练中。模型仍在持续迭代,将定期更新,损失收敛情况如图所示:

0cd69cea-e89f-11ed-ab56-dac502259ad0.png

3. 可支持本地 CPU int4 推理、消费级 GPU 推理

大模型通常具有数百亿参数量,提高了使用门槛。为了让更多用户使用 Linly-ChatFlow 模型,开发团队在项目中集成了高可用模型量化推理方案,支持 int4 量化 CPU 推理可以在手机或者笔记本电脑上使用,int8 量化使用 CUDA 加速可以在消费级 GPU 推理 13B 模型。此外,项目中还集成了微服务部署,用户能够一键将模型部署成服务,方便二次开发。

未来工作

据透露,伶荔说系列模型目前仍处于欠拟合,正在持续训练中,未来 33B 和 65B 的版本或将带来更惊艳的性能。在另一方面,项目团队不仅公开了对话模型,还公开了中文基础模型和相应的训练代码与数据集,向社区提供了一套可复现的对话模型方案,目前也有团队基于其工作实现了金融、医学等领域的垂直领域对话模型。

在之后的工作,项目团队将继续对伶荔说系列模型进行改进,包括尝试人类反馈的强化学习(RLHF)、适用于中文的字词结合 tokenizer、更高效的 GPU int3/int4 量化推理方法等等。伶荔项目还将针对虚拟人、医疗以及智能体场景陆续推出伶荔系列大模型。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10878

    浏览量

    212154
  • 人工智能
    +关注

    关注

    1792

    文章

    47409

    浏览量

    238919
  • 开源
    +关注

    关注

    3

    文章

    3368

    浏览量

    42567
  • 语言模型
    +关注

    关注

    0

    文章

    529

    浏览量

    10292

原文标题:“伶荔”(Linly) 开源大规模中文语言模型

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    搭建开源语言模型服务的方法

    本文我们将总结5种搭建开源语言模型服务的方法,每种都附带详细的操作步骤,以及各自的优缺点。
    的头像 发表于 10-29 09:17 209次阅读

    NVIDIA NIM助力企业高效部署生成式AI模型

    Canonical、Nutanix 和 Red Hat 等厂商的开源 Kubernetes 平台集成了 NVIDIA NIM,将允许用户通过 API 调用来大规模地部署大语言模型
    的头像 发表于 10-10 09:49 403次阅读

    开放原子开源大赛助力轻量级大语言模型应用落地

    “Intel借助开源大赛在全国的影响力,吸引更多开发者加入大语言模型及其在人工智能领域的创新应用。”负责BigDL-LLM赛题运营的Intel工作人员表示。
    的头像 发表于 09-24 10:38 592次阅读

    大规模语言模型:从理论到实践】- 阅读体验

    和抗噪声能力;以及通过可视化工具来增强模型的解释性等。同时,随着威廉希尔官方网站 的不断进步和发展,在未来能够发展出更加高效、健壮和可解释的大语言模型
    发表于 06-07 14:44

    大规模语言模型:从理论到实践】- 每日进步一点点

    非常推荐大家去读 【大规模语言模型:从理论到实践】这本书,系统的讲解了大模型的前世今生,对各个环节知识进行了普及。 今天跟我一起学习归一化的部分。 大
    发表于 05-31 19:54

    语言模型:原理与工程时间+小白初识大语言模型

    解锁 我理解的是基于深度学习,需要训练各种数据知识最后生成自己的的语言理解和能力的交互模型。 对于常说的RNN是处理短序列的数据时表现出色,耳真正厉害的是Transformer,此框架被推出后直接
    发表于 05-12 23:57

    【大语言模型:原理与工程实践】大语言模型的应用

    。 关于大语言模型是否具备与人类“系统2”相似的能力,存在广泛的争议。然而,随着模型参数量的增加和大规模预训练的实施,大语言
    发表于 05-07 17:21

    【大语言模型:原理与工程实践】大语言模型的评测

    任务、评测集构建标准和评测方式三个部分。特别地,为了关注大语言模型中文场景的优化和应用,该框架特别注重中文特有语境下的能力考察。其贡献在于不仅能更准确地反映
    发表于 05-07 17:12

    【大语言模型:原理与工程实践】大语言模型的预训练

    具有以下三个非常显著的特点,一个就是模型参数规模更大,训练数据更多。当然,对计算资源的要求也会更高。 构建强大的语言模型时,模型的选型至关
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的基础威廉希尔官方网站

    处理各种自然语言任务时都表现出了惊人的能力。这促使一个新的研究方向诞生——基于Transformer 的预训练语言模型。这类模型的核心思想是先利用
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    用于文本生成,根据提示或上下文生成连贯、富有创造性的文本,为故事创作等提供无限可能。大语言模型也面临挑战。一方面,其计算资源需求巨大,训练和推理耗时;另一方面,模型高度依赖数据,需要大规模
    发表于 05-04 23:55

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库,用于优化从 PC 到云端的 NVIDIA GPU 上运行的大
    的头像 发表于 04-28 10:36 588次阅读

    名单公布!【书籍评测活动NO.30】大规模语言模型:从理论到实践

    ,在大模型实践和理论研究的过程中,历时8个月完成 《大规模语言模型:从理论到实践》 一书的撰写。希望这本书能够帮助读者快速入门大模型的研究和
    发表于 03-11 15:16

    字节发布机器人领域首个开源视觉-语言操作大模型,激发开源VLMs更大潜能

    对此,ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作
    的头像 发表于 01-23 16:02 555次阅读
    字节发布机器人领域首个<b class='flag-5'>开源</b>视觉-<b class='flag-5'>语言</b>操作大<b class='flag-5'>模型</b>,激发<b class='flag-5'>开源</b>VLMs更大潜能

    机器人基于开源的多模态语言视觉大模型

    ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作
    发表于 01-19 11:43 424次阅读
    机器人基于<b class='flag-5'>开源</b>的多模态<b class='flag-5'>语言</b>视觉大<b class='flag-5'>模型</b>