8G显存一键训练，解锁Llama2隐藏能力！XTuner带你玩转大模型-电子发烧友网

自 ChatGPT 发布以来，大模型的强大让人们看见了通用人工智能的曙光，各个科技大厂也纷纷开源自家的大语言模型。然而，大模型也意味着高昂的硬件成本，让不少平民玩家望而却步。

为了让大模型走入千家万户，赋能百业，上海人工智能实验室开发了低成本大模型训练工具箱 XTuner，旨在让大模型训练不再有门槛。通过 XTuner，最低只需 8GB 显存，就可以打造专属于你的 AI 助手。

X 种选择

XTuner 提供了丰富的功能，上图中的各项功能都可以随意组合搭配。

除单点功能外，XTuner 还有以下三个黑科技，让开发者可以做到真正的“面向数据”工作。

高效的数据引擎

XTuner 适配了多个热门开源数据集格式，开发者如已有对应格式的数据集，可以直接使用，并支持多种格式数据源的混合使用：

Alpaca 格式，斯坦福大学开源数据集的格式，也是社区开源项目使用较多的一种格式

MOSS 格式，复旦大学开源指令微调数据集的格式，包含多轮对话和工具调用

Gunacao 格式，QLoRA 项目中所使用数据集的格式

OpenAI 格式，GPT-3.5-Turbo Finetune 接口要求的数据集格式

更多数据集格式正在持续添加中......

pip install xtuner # 训练混合了 Alpaca 格式和 Gunacao 格式的数据 xtuner train internlm_7b_qlora_alpaca_enzh_oasst1_e3

除了支持多种数据集格式外，XTuner 还针对大语言模型数据的特点，对各种数据集格式做了充分的解耦，相较于其他的 Finetune 开源项目，可以在不破坏 Chat 模型对话模版的情况下，对 Chat 模型进行 Finetune。

pip install xtuner # 不破坏 Chat 模型对话模版，继续增量指令微调 xtuner train internlm_chat_7b_qlora_oasst1_e3

针对 GPU 计算特点，在显存允许的情况下，XTuner 支持将多条短数据拼接至模型最大输入长度，以此最大化 GPU 计算核心的利用率，可以显著提升训练速度。例如，在使用 oasst1 数据集微调 Llama2-7B 时，数据拼接后的训练时长仅为普通训练的 50%。

多种训练引擎

XTuner 首次尝试将 HuggingFace 与 OpenMMLab 进行结合，兼顾易用性和可配置性。支持使用 MMEngine Runner 和 HuggingFace Trainer 两种训练引擎，开发者如有深度定制化需求，可根据使用习惯灵活配置。

pip install xtuner # 使用 MMEngine Runner 训练 xtuner train internlm_7b_qlora_oasst1_e3 # 使用 HugingFace Trainer 训练 xtuner train internlm_7b_qlora_oasst1_e3_hf

一键启动训练

XTuner 内置了增量预训练、单轮&多轮对话指令微调、工具类指令微调的标准化流程，让开发者只需聚焦于数据本身。

同时， XTuner 集成了 QLoRA、DeepSpeed 和 FSDP 等威廉希尔官方网站，提供各种尺寸模型在各种规格硬件下的训练解决方案，通过 XTuner 一键式启动训练，仅需 8GB 显存即可微调 7B 模型。

pip install 'xtuner[deepspeed]' # 8G 显存微调 Llama2-7B xtuner train llama2_7b_qlora_oasst1_512_e3 --deepspeed deepspeed_zero2

基于此，开发者可以专注于数据，其他环节放心交给 XTuner，抽出更多精力去奔向大模型的星辰大海！

X 种玩法

通过 XTuner，开发者可以给大模型添加插件，补足大模型欠缺的能力，甚至获得某些 ChatGPT 才有的技能。

XTuner 在 HuggingFace Hub 上提供了丰富的大模型插件，以下示例都可以在 Hub 中找到，欢迎大家下载体验！

ColoristLlama -- 你的专属调色师

通过在少量颜色注释数据集上对 Llama2-7B 进行指令微调训练，XTuner 成功解锁了其调色能力。最终得到的模型甚至可以像“你的甲方”一样反复修订！

pip install xtuner xtuner chat hf meta-llama/Llama-2-7b-hf --adapter xtuner/Llama-2-7b-qlora-colorist --prompt-template colorist

Llama "联网" -- 更可靠及时的回答

借助 XTuner 及插件开源数据集，我们还解锁了 Llama 2、QWen 等开源模型的隐藏能力，使其可以像 ChatGPT 一样联网搜索、调用工具，获得更可靠的回复。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
28

文章
4733

浏览量
128908
显存

显存

+关注

关注
0

文章
108

浏览量
13658
大模型

大模型

+关注

关注
2

文章
2436

浏览量
2661

原文标题：8G显存一键训练，解锁Llama2隐藏能力！XTuner带你玩转大模型

文章出处：【微信号：GiantPandaCV，微信公众号：GiantPandaCV】欢迎添加关注！文章转载请注明出处。

用Ollama轻松搞定Llama 3.2 Vision模型本地部署

Ollama的安装。一，Llama3.2 Vision简介 Llama 3.2 Vision是一个多模态大型语言模型（LLMs）的集合，它

发表于 11-23 17:22 •999次阅读

用Ollama轻松搞定<b class='flag-5'>Llama</b> 3.2 Vision<b class='flag-5'>模型</b>本地部署

Llama 3 模型训练技巧

Llama 3 模型，假设是指一个先进的人工智能模型，可能是一个虚构的或者是一个特定领域的术语。

发表于 10-27 14:24 •309次阅读

Llama 3 语言模型应用

在人工智能领域，语言模型的发展一直是研究的热点。随着威廉希尔官方网站的不断进步，我们见证了从简单的关键词匹配到复杂的上下文理解的转变。一、Llama 3 语言

发表于 10-27 14:15 •272次阅读

一键断电开关的种类有哪些

内部的小电流控制大电流，达到弱电控制强电的目的。特点：快速、安全，能够切断所有连接的电源，适合需要快速切断电源的场景。应用场景：家庭、办公室、工厂等需要一键控制多个电源的场景。 2. 智能开关式一键断电定义：随着智能

发表于 09-13 16:45 •980次阅读

源2.0-M32大模型发布量化版运行显存仅需23GB 性能可媲美LLaMA3

北京2024年8月23日 /美通社/ -- 近日，浪潮信息发布源2.0-M32大模型4bit和8bit量化版，性能比肩700亿参数的LLaMA3开源大

发表于 08-25 22:06 •306次阅读

变电站一键顺控系统和开关柜一键顺控有区别吗？

变电站一键顺控系统和开关柜一键顺控威廉希尔官方网站虽然都涉及到“一键顺控”的概念，但它们在应用范围和具体实现上有所不同，因此变电站一键顺控系统和开关柜一键

发表于 07-31 13:34 •567次阅读

云天励飞推出IPU-X6000加速卡，针对大模型推理任务设计

卡的互联;可应用于语言、视觉、多模态等各类大模型的推理加速，目前已适配云天天书、通义千问、百川智能、Llama2/3等近10个主流大模型。

发表于 07-24 11:03 •622次阅读

摩尔线程和滴普科技完成大模型训练与推理适配

近日，摩尔线程与滴普科技宣布了一项重要合作成果。摩尔线程的夸娥（KUAE）千卡智算集群与滴普科技的企业大模型Deepexi已完成训练及推理适配，共同实现了700亿参数LLaMA2大语言

发表于 05-30 10:14 •543次阅读

Meta Llama 3基础模型现已在亚马逊云科技正式可用

亚马逊云科技近日宣布，Meta公司最新发布的两款Llama 3基础模型——Llama 3 8B和Llama 3 70B，现已正式上线并集成至

发表于 05-09 10:39 •396次阅读

【大语言模型：原理与工程实践】大语言模型的预训练

进行损失计算，得到下一个目标的预测。也会设计一些其他辅助训练任务，与主任务共同训练。选择合适的预训练数据是确保

发表于 05-07 17:10

fatfs支持8G以上的内存卡吗？

在官网上下载了最新版的fatfs发现2G的SD卡可以正常读写 8G以上的SDHC则不能被识别　初始化都过不去

发表于 04-26 07:40

Meta推出最强开源模型Llama 3 要挑战GPT

公司这次开源了Llama 3 8B与70B两款不同规模的模型，开发者可以免费使用，而Meta公司还将陆续推出一系列具备多模态、多语言对话、更长上下文窗口等

发表于 04-19 17:00 •835次阅读

Meta公司的Llama2语言模型4项测试通过率低，幻觉率高

据了解，人工智能安全企业 DeepKeep日前发表了一份评估报告。报告指出，Meta公司旗下LlamA 2大型语言模型在13个风险评估类别中的表现仅为4项合格。

发表于 04-18 14:45 •456次阅读

LLaMA 2是什么？LLaMA 2背后的研究工作

Meta 发布的 LLaMA 2，是新的 sota 开源大型语言模型 (LLM)。LLaMA 2 代表着

发表于 02-21 16:00 •1117次阅读

LayerNorm/RMSNorm的重计算实现

我去实测了一下，单机8卡A100训练LLama7B，纯数据并行的情况下打开memory_efficient开关相比于不打开节省了大约2个

发表于 01-16 09:55 •3326次阅读

搜索历史

8G显存一键训练，解锁Llama2隐藏能力！XTuner带你玩转大模型

评论

用Ollama轻松搞定Llama 3.2 Vision模型本地部署

Llama 3 模型训练技巧

Llama 3 语言模型应用

一键断电开关的种类有哪些

源2.0-M32大模型发布量化版运行显存仅需23GB 性能可媲美LLaMA3

变电站一键顺控系统和开关柜一键顺控有区别吗？

云天励飞推出IPU-X6000加速卡，针对大模型推理任务设计

摩尔线程和滴普科技完成大模型训练与推理适配

Meta Llama 3基础模型现已在亚马逊云科技正式可用

【大语言模型：原理与工程实践】大语言模型的预训练

fatfs支持8G以上的内存卡吗？

Meta推出最强开源模型Llama 3 要挑战GPT

Meta公司的Llama2语言模型4项测试通过率低，幻觉率高

LLaMA 2是什么？LLaMA 2背后的研究工作

LayerNorm/RMSNorm的重计算实现