工联院大模型测评：文心一言在工业领域表现超过GPT3.5，居国内大模型首位-电子发烧友网

近期，中国工业互联网研究院（简称“工联院”）针对人工智能大模型在中文工业领域的知识问答能力进行系统性评测。结果显示，百度文心一言表现超过GPT3.5，综合评价指数在国内排名第一。

工联院本次评测选取了工业领域典型的八大行业。百度文心一言在电子设备、装备、钢铁、采矿、电力、石化、建材等七大行业均获国内第一。

五大院士，八大IEEE Fellow，共十三位顶级专家构成了专家委员会。评测对象涵盖GPT4、GPT3.5、文心一言、ChatGLM等国内外具有代表性的头部大模型。评估结果选取性能前六名的模型进行公布。

百度文心一言在国内“最懂工业”

本次工业知识问答测试主要分为客观题与主观题两大类，总计超过1100个问题。主观题主要考察四大维度：基础能力、语句能力、概括能力和逻辑能力。

评测结果显示，GPT4表现最佳。国内头部大模型表现亮眼，整体与GPT3.5相当。其中百度文心一言表现超过GPT3.5，在国内大模型中排名第一。

在客观题环节，评测结果显示，GPT4与文心一言表现好于其他大模型。但评测结果也同时指出，大模型普遍准确率有较大的提升空间。

主观题方面，国内大模型的基础能力、语句能力与GPT4接近，概括能力、逻辑能力与GPT4有一定差距。

在大模型的自我认知能力和污染问题分析能力上，GPT4相较于其他大模型表现出更好的能力。

大模型发展新热点：丰富特定行业专业知识

虽然国内大模型在本次评测表现较好，甚至在部分行业赶超GPT3.5，但工联院评测报告也指出，国内外通用大模型在工业知识问答领域探索仍处于初级阶段，国内大模型与GPT4有差距，比如行业间的泛化能力有待加强。

实际上，工联院评测报告揭示出通用大模型落地垂直行业的痛点，缺乏特定行业的专业知识。

关于解决难题的方法，工联院评测报告给出的建议是，进一步丰富相关专业领域的数据训练集，进一步进行专业化的微调。

当前，国内科技公司纷纷加强与工业企业合作，期望通过在实际场景中探索应用大模型，弥补差距，赶超GPT4.0。

比如在本次评测中位居国内模型第一的百度文心一言，与南方电网电力调度控制中心在电力调度场景探索使用调度AI大模型。在汽车行业，长安汽车基于百度文心大模型正在开发生成式人工智能产品，赋能一款量产车型，实现提升用户体验的目标。除了能源、汽车制造，百度智能云还在建筑、采矿、物流、纺织等领域，探索使用大模型提升运营效率和用户体验效果。

通过在实际场景的探索应用，科技公司可以积攒更多的行业Know-how，扩展相关领域的数据训练集。这种外部真实反馈有助驱动大模型更加快速的实现迭代升级。

未来，工联院将持续开展通用大模型在工业领域更多维度的性能评测，包括但不限于大模型的鲁棒性、安全性以及人类大价值观等。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

南方电网

南方电网

+关注

关注
2

文章
189

浏览量
29116
文心一言

文心一言

+关注

关注
0

文章
124

浏览量
1275
大模型

大模型

+关注

关注
2

文章
2427

浏览量
2647

原文标题：工联院大模型测评：文心一言在工业领域表现超过GPT3.5，居国内大模型首位

文章出处：【微信号：CADCAM_beijing，微信公众号：智能制造IMS】欢迎添加关注！文章转载请注明出处。

百度文心一言APP升级为文小言

百度宣布其文心一言APP正式升级为文小言，标志着百度在智能搜索领域迈出了重要

发表于 09-04 16:06 •487次阅读

【附实操视频】聆思CSK6大模型开发板接入国内主流大模型（星火大模型、文心一言、豆包、kimi、智谱glm、通义千问）

接入文心一言、通义千问、豆包、智谱glm、kimi等国内的大模型，但由于各家接口和数据格式不一样

发表于 08-22 10:12

智能硬件接入主流大模型做语音交互（附文心一言、豆包、kimi、智谱glm、通义千问示例）

接入文心一言、通义千问、豆包、智谱glm、kimi等国内的大模型，这个是必须可以的。但由于各家接口和数据格式不

发表于 08-21 19:13

百度文心大模型4.0 Turbo，正式发布用户规模已达3亿

“文心一言累计用户规模已达3亿，日调用次数也达到了5亿。”6月28日，百度首席威廉希尔官方网站官、深度学习威廉希尔官方网站及应用国家工程研究中心主任王海峰在WAVE SUMMIT深度学习开发者大会2024上宣

发表于 06-29 10:06 •855次阅读

中文大模型测评基准SuperCLUE：商汤日日新5.0，刷新国内最好成绩

日前，中文大模型测评基准SuperCLUE发布最新榜单，对商汤科技全新升级「日日新SenseNova 5.0」大模型进行了全方位综合性测评，结果显示

发表于 05-21 14:45 •732次阅读

李彦宏高度评价百度文心一言模型及AI威廉希尔官方网站，强调商业化将持续推进

据了解，目前已有近10万家企业使用了文心一言的能力，其中10%的大搜流量由该模型产生，每日有250万用户受益于文库的AI功能。未来，百度计划进一

发表于 05-11 10:44 •521次阅读

新火种AI|李彦宏发声：文心一言4.0在国内可以取代ChatGPT！事实真的如此吗？

文心一言 VS ChatGPT，谁更胜一筹？

发表于 04-19 10:14 •758次阅读

百度文心一言用户破2亿，AI原生应用开发数量达19万

此外，李彦宏还提到，百度在去年 8 月宣布开放文心一言后，不仅在C端借助大模型改造用户产品，将AI功能融入旗下多款产品；同时

发表于 04-16 15:05 •607次阅读

苹果ReALM模型在实体识别测试中超越OpenAI GPT-4.0

“我们的模型在识别各种类型实体方面都有显著提升，即使是小尺寸模型，在屏幕实体识别准确性上也已超过原有的系统5%以上。

发表于 04-02 11:23 •455次阅读

文心一言将在2024年贡献数十亿元的增量收入

百度文心一言在2024年有望为百度带来数十亿元人民币的增量收入，这一预测由百度创始人、董事长兼首席执行官李彦宏亲自公布。这

发表于 03-04 11:32 •1194次阅读

百度起诉“文心一言”公司涉嫌商标侵权，不正当竞争纠纷即将开庭

公告中指责对方涉嫌商标侵权，引发了一场涉及人工智能领域的法律大战。据了解，百度公司推出的“文心一言”是

发表于 02-06 11:44 •1649次阅读

文心一言APP上线数字分身功能

文心一言APP近日上线了一项令人兴奋的新功能——数字分身。这一功能允许用户轻松创建自己的个性化虚拟形象，为用户带来全新的互动体验。

发表于 02-04 10:32 •1180次阅读

百度文心一言用户规模突破1亿

在近日，百度公布了一个令人振奋的消息：文心一言大模型的用户规模已经突破了1亿。

发表于 01-02 16:10 •653次阅读

规模突破1亿！文心一言披露最新用户规模

“文心一言用户规模突破1亿。”12月28日，百度首席威廉希尔官方网站官、深度学习威廉希尔官方网站及应用国家工程研究中心主任王海峰在第十届WAVE SUMMIT深度学习开发者大会上宣布。会上，王海峰以《

发表于 12-29 15:58 •587次阅读

文心一言用户规模破1亿应用已突破4000款

，文心一言用户规模破1亿。基于文心一言的应用已突破4000款。百度

发表于 12-28 18:18 •1065次阅读

搜索历史

工联院大模型测评：文心一言在工业领域表现超过GPT3.5，居国内大模型首位

评论

百度文心一言APP升级为文小言

【附实操视频】聆思CSK6大模型开发板接入国内主流大模型（星火大模型、文心一言、豆包、kimi、智谱glm、通义千问）

智能硬件接入主流大模型做语音交互（附文心一言、豆包、kimi、智谱glm、通义千问示例）

百度文心大模型4.0 Turbo，正式发布用户规模已达3亿

中文大模型测评基准SuperCLUE：商汤日日新5.0，刷新国内最好成绩

李彦宏高度评价百度文心一言模型及AI威廉希尔官方网站，强调商业化将持续推进

新火种AI|李彦宏发声：文心一言4.0在国内可以取代ChatGPT！事实真的如此吗？

百度文心一言用户破2亿，AI原生应用开发数量达19万

苹果ReALM模型在实体识别测试中超越OpenAI GPT-4.0

文心一言将在2024年贡献数十亿元的增量收入

百度起诉“文心一言”公司涉嫌商标侵权，不正当竞争纠纷即将开庭

文心一言APP上线数字分身功能

百度文心一言用户规模突破1亿

规模突破1亿！文心一言披露最新用户规模

文心一言用户规模破1亿应用已突破4000款