百川的大模型KnowHow介绍-电子发烧友网

来自：李rumor

大模型是一个实验工程，涉及数据清洗、底层框架、算法策略等多个工序，每个环节都有很多坑，因此知道如何避坑和威廉希尔官方网站选型非常重要，可以节省很多算力和时间。

近期百川智能发布了Baichuan2的7B和13B版本，可能不少卷友被刷屏惯了没有仔细看，他们在放出模型的同时也给了一份威廉希尔官方网站报告，里面干货满满，因此我自来水一波，带大家一起看看百川积累的KnowHow。同时也有一些我没完全懂的地方，希望抛砖引玉，可以一起在评论区讨论。

Pre-train

数据

数据多样性

从不同的来源获取数据，最好建立一个类目体系，可以提升对整体数据分布的把控，方便后续增减。

进行聚类和去重，可以通过LSH局部敏感或者稠密向量作为聚类特征，LSH更快一些，但向量可以更好地编码语义。但这里有个问题是需要卡阈值，去重过猛会影响多样性降低泛化能力。因此百川选择的做法是去除一部分，并对剩余的样本打分，作为预训练时采样的权重。

整体去重的流程如下（这里我没太懂的是为何把Document去重放在最后一步，如果放在前面的环节应该可以显著减少句子和段落的数据量）：

数据质量

采用句子级别的分类器进行过滤，这个是业内常用做法了，但具体用什么数据训练，用什么标准标注没有细说。

对于内容安全，用规则和模型洗掉有害内容，还额外找了一些正向价值观的数据源，提升采样概率。

模型结构

Tokenizer

Tokenizer的难点是平衡压缩比和词表尺寸，比如频繁出现的几个中文是可以用1个token表示的，这样inference时就会很快，但合并的话这几个中文字单独的embedding训练可能就不充分，跟其他字组合时语义表示会不够好。

因此百川使用BPE，选择了比较折中的12万大小，同时披露了以下细节：

对原始数据不做任何归一化

把数字完全拆开，可以更好理解数值数据

为了代码数据，专门增加空格token

覆盖率在0.9999，只有少量fall back（一种避免OOV的方法，在碰到unknown中文时会变成utf8的byte token）

位置编码

由于有外推的需求，最近位置编码有很多新的工作，比较火的当属RoPE和ALiBi，这里百川都用了，因为他们实验发现位置编码并没有显著影响模型表现，同时进行了速度优化：

RoPE + Flash Attention

ALiBi + xFormers

激活函数

采用了表现更好的SwiGLU，由于SwiGLU有三个矩阵，引入了更多参数，因此百川缩小了FFN层的尺寸（4->8/3再处理成128的倍数）。

Normalisations

对Transformer的输入采用LayerNorm，对warm-up更鲁棒

采用了RMSNorm的实现，指计算输入特征的方差，提升计算效率

混合精度

采用BF16，因为其具有更大的范围，可以让训练更稳定，但对于位置编码、优化器等，采用全精度。

提升稳定性

NormHead：对输出的表示进行归一化。首先低频token的模会在训练中变小，进行归一化后可以提升稳定性。另外百川通过对输出表示聚类，发现cosine距离可以将相似语义的聚到一起而L2距离不行，归一化可以消除最终计算logits时点乘中L2的影响。从实验结果可以明显发现loss收敛更好更稳定。

Max-z loss：在训练过程中，百川发现模型的logits都很大，这样就会对解码时的超参数鲁棒性较低，因此增加max-z loss拉低logits的值。

注：对于预训练的优化解读跳过了Infra的部分，不是那么懂。。

Alignment

SFT

数据质量：采用抽检的方式进行质量把控，抽一批数据检查，不合格全部退回。

数据数量：100k（目前开源SFT数据还是挺多的，不知道百川出于什么考虑

Reward Model

Prompt多样性：构造了一个200+细分类目的数据体系，尽可能覆盖用户需求，同时提升每类prompt多样性，从而提升泛化能力

Response多样性：用不同尺寸和阶段的百川模型生成答案，不使用其他开源模型（经验证无法提升RM准确率）

PPO

预先对critic模型进行了warmup

为提升RL稳定性，进行梯度裁剪

安全

由于模型开源，百川在内容安全上非常细致，包括：

聘请10位专业审核人员构建了100+安全类目

用50人的标注团队构建了200K攻击指令

对于攻击指令，生产多样性很大的回答

总结

Baichuan2的效果比第一版提升了很多，在推理任务上效果翻倍，是目前开源模型中过了最多中文语料的模型。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4610

浏览量
92860
开源

开源

+关注

关注
3

文章
3335

浏览量
42483
函数

函数

+关注

关注
3

文章
4329

浏览量
62588
大模型

大模型

+关注

关注
2

文章
2439

浏览量
2676

原文标题：总结

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

白海科技与百川智能顺势而为、携手共进，助力领域大模型应用快速落地

（2023年08月08日，中国北京讯）近日，AI基础软件服务商白海科技与国内领先的AGI服务企业百川智能宣布达成战略合作协议。这次合作旨在加速大语言模型在各行各业的应用，并为客户提供智能高效

发表于 08-08 14:23 •1069次阅读

海基新能源再获百川股份资金加持

海基新能源为百川股份参股公司，此次增资前，百川股份合计持股26.55%。百川股份表示，本次增资有利于扩大海基新能源锂电项目产能规模，满足其未来发展对资金的需求。

发表于 12-28 10:11 •3701次阅读

百川智能获阿里腾讯小米等3亿美元投资

百川智能推出了4款开源baichuan-7b/13b、baichuan 2-7b/13b的免费商用产品和baichuan-53b、baichuan 2-53b的闭源大模型，平均每28天推出一次新的大模型。

发表于 10-17 10:15 •754次阅读

百川智能发布Baichuan2 Turbo系列API，或将替代行业大模型

在当天的媒体沟通会上，百川智能创始人、CEO王小川，百川智能联合创始人、联席总裁洪涛，百川智能威廉希尔官方网站联创陈炜鹏及百川智能商用业务部总经理李剑共

发表于 12-20 16:54 •974次阅读

搜索出生的百川智能大模型RAG爬坑之路总结

今天对百川的RAG方法进行解读，百川智能具有深厚的搜索背景，来看看他们是怎么爬RAG的坑的吧～

发表于 01-05 15:02 •1482次阅读

搜索出生的<b class='flag-5'>百川</b>智能大<b class='flag-5'>模型</b>RAG爬坑之路总结

百川智能发布超千亿大模型Baichuan 3

百川智能近日发布了超千亿参数的大语言模型Baichuan 3，引发了业界的广泛关注。这款模型在多个权威通用能力评测中表现卓越，展现了其强大的语义理解和生成能力。

发表于 01-31 14:58 •841次阅读

数势联动百川，发布首批大模型联合解决方案，推动中国大模型价值落地

近日，行业领先的数据智能产品提供商北京数势云创科技有限公司（以下简称“数势科技”）和国内通用大模型厂商北京百川智能科技有限公司（以下简称“百川”）联合发布大模型数据分析垂直领域应用解决

发表于 02-28 11:40 •481次阅读

数势联动<b class='flag-5'>百川</b>，发布首批大<b class='flag-5'>模型</b>联合解决方案，推动中国大<b class='flag-5'>模型</b>价值落地

百川智能与北京大学将共建通用人工智能联合实验室

近日，百川智能与北京大学携手合作，共同签署了“北大——百川通用人工智能联合实验室”的共建协议，标志着双方在人工智能领域迈出了坚实的合作步伐。

发表于 03-21 11:45 •902次阅读

百川智能发布Baichuan 4大模型及首款AI助手“百小应”

百川智能近日发布了其新一代基座大模型Baichuan 4，并同步推出了首款AI助手“百小应”。这款AI助手是在Baichuan 4强大能力的基础上，结合先进的搜索威廉希尔官方网站精心打造而成。

发表于 05-23 14:15 •616次阅读

亚马逊云科技接入百川智能和零一万物基础模型

近日，亚马逊云科技在中国峰会上宣布，两大中文基础模型——百川智能的Baichuan2-7B和零一万物的Yi-1.5 6B/9B/34B，即将或已正式登陆中国区域的SageMaker JumpStart。这一举措为中国企业提供了丰富的模型

发表于 06-04 11:53 •579次阅读

百川智能完成50亿元A轮融资

近日，国内领先的医疗AI大模型企业——百川智能，正式宣布完成了高达50亿元人民币的A轮融资，这一里程碑式的融资不仅彰显了市场对其威廉希尔官方网站实力与未来发展潜力的高度认可，也为公司的后续发展奠定了坚实的资金基础。

发表于 07-26 16:42 •466次阅读

大模型厂商“输血”不断，百川智能完成50亿元A轮融资！

有重磅消息曝出：知名大模型公司百川智能已经成功收获了价值50亿元的A轮融资。由此，我们不禁感叹，大模型厂商们的“输血”和“续命”之战，还在激烈的上演着。

发表于 07-31 14:47 •624次阅读

百川智能发布一站式大模型商业化解决方案

近日，百川智能正式推出了一站式大模型商业化解决方案，旨在为企业提供更加全面、高效的大模型应用服务。该解决方案以1+3产品矩阵为核心，包括全链路优质通用训练数据、Baichuan4-Turbo和Baichuan4-Air两款

发表于 11-01 18:01 •819次阅读

百川智能发布Baichuan4-Finance金融大模型

近日，百川智能正式推出了其全链路领域增强的金融大模型——Baichuan4-Finance。这一创新产品的发布，标志着百川智能在金融智能化领域迈出了重要一步。 Baichuan4-Finance

发表于 12-25 10:11 •87次阅读

搜索历史

百川的大模型KnowHow介绍

评论

白海科技与百川智能顺势而为、携手共进，助力领域大模型应用快速落地

百川ESD产品简介 2017版

海基新能源再获百川股份资金加持

百川智能获阿里腾讯小米等3亿美元投资

百川智能发布Baichuan2 Turbo系列API，或将替代行业大模型

搜索出生的百川智能大模型RAG爬坑之路总结

百川智能发布超千亿大模型Baichuan 3

数势联动百川，发布首批大模型联合解决方案，推动中国大模型价值落地

百川智能与北京大学将共建通用人工智能联合实验室

百川智能发布Baichuan 4大模型及首款AI助手“百小应”

亚马逊云科技接入百川智能和零一万物基础模型

百川智能完成50亿元A轮融资

大模型厂商“输血”不断，百川智能完成50亿元A轮融资！

百川智能发布一站式大模型商业化解决方案

百川智能发布Baichuan4-Finance金融大模型