0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

工联院大模型测评:文心一言在工业领域表现超过GPT3.5,居国内大模型首位

智能制造IMS 来源:智能制造IMS 2023-06-29 16:10 次阅读

近期,中国工业互联网研究院(简称“工联院”)针对人工智能大模型在中文工业领域的知识问答能力进行系统性评测。结果显示,百度文心一言表现超过GPT3.5,综合评价指数在国内排名第一。

766eff46-15a2-11ee-962d-dac502259ad0.png

工联院本次评测选取了工业领域典型的八大行业。百度文心一言在电子设备、装备、钢铁、采矿、电力、石化、建材等七大行业均获国内第一。

76c72202-15a2-11ee-962d-dac502259ad0.png

五大院士,八大IEEE Fellow,共十三位顶级专家构成了专家委员会。评测对象涵盖GPT4、GPT3.5、文心一言、ChatGLM等国内外具有代表性的头部大模型。评估结果选取性能前六名的模型进行公布。

百度文心一言在国内“最懂工业”

本次工业知识问答测试主要分为客观题与主观题两大类,总计超过1100个问题。主观题主要考察四大维度:基础能力、语句能力、概括能力和逻辑能力。

评测结果显示,GPT4表现最佳。国内头部大模型表现亮眼,整体与GPT3.5相当。其中百度文心一言表现超过GPT3.5,在国内大模型中排名第一。

772c8b4c-15a2-11ee-962d-dac502259ad0.png

在客观题环节,评测结果显示,GPT4与文心一言表现好于其他大模型。但评测结果也同时指出,大模型普遍准确率有较大的提升空间。

7776d9fe-15a2-11ee-962d-dac502259ad0.png

主观题方面,国内大模型的基础能力、语句能力与GPT4接近,概括能力、逻辑能力与GPT4有一定差距。

在大模型的自我认知能力和污染问题分析能力上,GPT4相较于其他大模型表现出更好的能力。

大模型发展新热点:丰富特定行业专业知识

虽然国内大模型在本次评测表现较好,甚至在部分行业赶超GPT3.5,但工联院评测报告也指出,国内外通用大模型在工业知识问答领域探索仍处于初级阶段,国内大模型与GPT4有差距,比如行业间的泛化能力有待加强。

实际上,工联院评测报告揭示出通用大模型落地垂直行业的痛点,缺乏特定行业的专业知识。

关于解决难题的方法,工联院评测报告给出的建议是,进一步丰富相关专业领域的数据训练集,进一步进行专业化的微调。

当前,国内科技公司纷纷加强与工业企业合作,期望通过在实际场景中探索应用大模型,弥补差距,赶超GPT4.0。

比如在本次评测中位居国内模型第一的百度文心一言,与南方电网电力调度控制中心在电力调度场景探索使用调度AI大模型。在汽车行业,长安汽车基于百度文心大模型正在开发生成式人工智能产品,赋能一款量产车型,实现提升用户体验的目标。除了能源、汽车制造,百度智能云还在建筑、采矿、物流、纺织等领域,探索使用大模型提升运营效率和用户体验效果。

通过在实际场景的探索应用,科技公司可以积攒更多的行业Know-how,扩展相关领域的数据训练集。这种外部真实反馈有助驱动大模型更加快速的实现迭代升级。

未来,工联院将持续开展通用大模型在工业领域更多维度的性能评测,包括但不限于大模型的鲁棒性、安全性以及人类大价值观等。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 南方电网
    +关注

    关注

    2

    文章

    189

    浏览量

    29116
  • 文心一言
    +关注

    关注

    0

    文章

    124

    浏览量

    1275
  • 大模型
    +关注

    关注

    2

    文章

    2427

    浏览量

    2647

原文标题:工联院大模型测评:文心一言在工业领域表现超过GPT3.5,居国内大模型首位

文章出处:【微信号:CADCAM_beijing,微信公众号:智能制造IMS】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    百度一言APP升级为

    百度宣布其文一言APP正式升级为,标志着百度智能搜索领域迈出了重要
    的头像 发表于 09-04 16:06 487次阅读

    【附实操视频】聆思CSK6大模型开发板接入国内主流大模型(星火大模型一言、豆包、kimi、智谱glm、通义千问)

    接入一言、通义千问、豆包、智谱glm、kimi等国内的大模型,但由于各家接口和数据格式不
    发表于 08-22 10:12

    智能硬件接入主流大模型做语音交互(附文一言、豆包、kimi、智谱glm、通义千问示例)

    接入一言、通义千问、豆包、智谱glm、kimi等国内的大模型,这个是必须可以的。但由于各家接口和数据格式不
    发表于 08-21 19:13

    百度模型4.0 Turbo,正式发布 用户规模已达3亿

    一言累计用户规模已达3亿,日调用次数也达到了5亿。”6月28日,百度首席威廉希尔官方网站 官、深度学习威廉希尔官方网站 及应用国家工程研究中心主任王海峰WAVE SUMMIT深度学习开发者大会2024上宣
    的头像 发表于 06-29 10:06 855次阅读

    中文大模型测评基准SuperCLUE:商汤日日新5.0,刷新国内最好成绩

    日前,中文大模型测评基准SuperCLUE发布最新榜单,对商汤科技全新升级「日日新SenseNova 5.0」大模型进行了全方位综合性测评,结果显示
    的头像 发表于 05-21 14:45 732次阅读
    中文大<b class='flag-5'>模型</b><b class='flag-5'>测评</b>基准SuperCLUE:商汤日日新5.0,刷新<b class='flag-5'>国内</b>最好成绩

    李彦宏高度评价百度一言模型及AI威廉希尔官方网站 ,强调商业化将持续推进

    据了解,目前已有近10万家企业使用了一言的能力,其中10%的大搜流量由该模型产生,每日有250万用户受益于文库的AI功能。未来,百度计划进
    的头像 发表于 05-11 10:44 521次阅读

    新火种AI|李彦宏发声:一言4.0国内可以取代ChatGPT!事实真的如此吗?

    一言 VS ChatGPT,谁更胜筹?
    的头像 发表于 04-19 10:14 758次阅读
    新火种AI|李彦宏发声:<b class='flag-5'>文</b><b class='flag-5'>心</b><b class='flag-5'>一言</b>4.0<b class='flag-5'>在</b><b class='flag-5'>国内</b>可以取代ChatGPT!事实真的如此吗?

    百度一言用户破2亿,AI原生应用开发数量达19万

    此外,李彦宏还提到,百度去年 8 月宣布开放一言后,不仅在C端借助大模型改造用户产品,将AI功能融入旗下多款产品;同时
    的头像 发表于 04-16 15:05 607次阅读

    苹果ReALM模型实体识别测试中超越OpenAI GPT-4.0

    “我们的模型识别各种类型实体方面都有显著提升,即使是小尺寸模型屏幕实体识别准确性上也已超过原有的系统5%以上。
    的头像 发表于 04-02 11:23 455次阅读

    一言将在2024年贡献数十亿元的增量收入

    百度一言2024年有望为百度带来数十亿元人民币的增量收入,这预测由百度创始人、董事长兼首席执行官李彦宏亲自公布。这
    的头像 发表于 03-04 11:32 1194次阅读

    百度起诉“一言”公司涉嫌商标侵权,不正当竞争纠纷即将开庭

    公告中指责对方涉嫌商标侵权,引发了场涉及人工智能领域的法律大战。 据了解,百度公司推出的“一言”是
    发表于 02-06 11:44 1649次阅读

    一言APP上线数字分身功能

    一言APP近日上线了项令人兴奋的新功能——数字分身。这功能允许用户轻松创建自己的个性化虚拟形象,为用户带来全新的互动体验。
    的头像 发表于 02-04 10:32 1180次阅读

    百度一言用户规模突破1亿

    近日,百度公布了个令人振奋的消息:一言模型的用户规模已经突破了1亿。
    的头像 发表于 01-02 16:10 653次阅读

    规模突破1亿!一言披露最新用户规模

    一言用户规模突破1亿。”12月28日,百度首席威廉希尔官方网站 官、深度学习威廉希尔官方网站 及应用国家工程研究中心主任王海峰第十届WAVE SUMMIT深度学习开发者大会上宣布。会上,王海峰以《
    的头像 发表于 12-29 15:58 587次阅读

    一言用户规模破1亿 应用已突破4000款

    一言用户规模破1亿。基于一言的应用已突破4000款。百度
    的头像 发表于 12-28 18:18 1065次阅读