0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Amdocs使用NVIDIA NIM加速生成式AI性能并降低成本

NVIDIA英伟达企业解决方案 来源:NVIDIA 2024-05-24 10:56 次阅读

电信公司正在利用生成式 AI,通过自动化流程、改善客户体验和优化网络运营来提高员工生产力。

Amdocs 是一家领先的通信和媒体公司软件和服务提供商,打造了一个电信专用生成式 AI 平台——amAIz,为电信公司提供了一个开放、安全、经济高效且跨大语言模型(LLM)的框架。Amdocs 正在利用 NVIDIA DGX CloudNVIDIA AI Enterprise 软件,提供基于商用 LLM 的解决方案,以及适用于特定领域的模型,使服务提供商能够构建和部署企业级生成式 AI 应用程序。

Amdocs 也在使用 NVIDIA NIM,这是一组易于使用的推理微服务,旨在加速生成式 AI 在企业中的大规模部署。该多功能微服务支持来自开放社区的模型和 NVIDIA API 产品目录中的 NVIDIA AI Foundation 模型,以及自定义 AI 模型。NIM 旨在推动高吞吐量、低延迟的无缝 AI 推理,同时保持预测的高准确性。

客户计费用例

电信公司的联络中心会收到大量客户的计费查询电话。他们向客服寻求解释,因为各种操作可能会影响他们的账单,包括客户的移动计划、促销期结束或意外收费。

Amdocs 正在开发一种基于 LLM 的解决方案,该解决方案通过对账单问题提供即时准确的解释来帮助客户。该解决方案旨在减少客服代理的工作量,使他们能够专注于更复杂的任务。

图 1 显示了从数据收集和准备到 LLM 微调,再到评估的总体流程。

a454eb56-18e3-11ef-b74b-92fbcf53809c.png

图 1. 从数据收集和准备到 LLM 微调和评估的整体流程

数据收集和准备

为了解决这个问题,他们从匿名的通话记录和账单中创建了一个新的数据集,由电信客服专家标记。该数据集包含数百个注释问题和答案,这些问题和答案被分类到相关场景中。大部分数据用于微调,性能在一个小测试集(几十个样本)上报告。

表 1 显示了所收集数据的一个示例。该问题与计费更改有关,注释的答案基于客户历史账单。

a476ab38-18e3-11ef-b74b-92fbcf53809c.png

表 1. 移动计划促销到期场景中收集的数据示例

在这个过程中,Amdocs 使用 OpenAI GPT-4 LLM 这一工具来过滤通话记录并将其分类到不同场景中。然后,LLM 被用于生成潜在的问答对,这些问答对被领域专家重新访问和标记。

数据格式和提示工程

作为基线,Amdocs 使用 Llama2-7b-chat、Llama2-13b-chat 和 Mixtral-8x7b LLM 来增强具有意向分类和账单问答功能的客户服务聊天机器人。Amdocs 设计了带有指令的提示,其中包括目标账单(原始 XML 格式的连续一到两个计费月)及其相关问题。

使用基准 LLM 和零样本或少样本推理的初始实验表现不佳,主要是由于从客户账单中提取相关信息的复杂性。此外,原始 XML 格式需要详细说明 LLM 的计费格式。因此,由于某些 LLM(例如,Llama2 的 4K tokens)的最大上下文长度的限制,Amdocs 在将账单和指令纳入提示中时面临挑战。

为了适应上下文窗口,Amdocs 的第一项工作是简化提示中的计费格式说明。图 2 显示了使用 Llama2 标记器(tokenizer),重新格式化后的 token 平均数量从 3909 个减少到 1153 个。

a4964420-18e3-11ef-b74b-92fbcf53809c.jpg

图 2. 使用新计费格式减少的 token 数量

NVIDIA DGX Cloud 上的 LLM 微调

由于注释数据量有限,Amdocs 探索了参数高效微调(PEFT)方法,如低秩自适应(LoRA)。他们用两种基础 LLM 架构(Llama2 和 Mixtral)进行了几次微调实验,研究了一到两个时期的几个 LoRA 超参数。

Amdocs 的实验是在 NVIDIA DGX Cloud 上进行的,这是一个面向开发者的端到端 AI 平台,提供基于最新 NVIDIA 架构的可扩展能力,并与世界领先的云服务提供商共同设计。Amdocs 使用的 NVIDIA DGX Cloud 实例包含以下组件:

8 个 NVIDIA 80GB Tensor Core GPU

88 个 CPU 核心

1TB 系统内存

在多 GPU 环境下执行微调周期,每个周期不到一个小时。

使用 NVIDIA NIM 部署 LLM

NVIDIA NIM 基于NVIDIA Triton推理服务器所构建,采用 TensorRT-LLM 对 NVIDIA GPU 上的 LLM 推理进行优化。NIM 通过预先优化的推理容器来推动无缝的 AI 推理,这些容器开箱即用,在加速的基础设施上提供极佳的延迟和吞吐量,同时确保预测的准确性。无论是在本地还是在云中,NIM 都提供了以下优势:

简化 AI 应用程序开发

为最新的生成式 AI 模型预先配置的容器

通过服务级别协议提供企业支持,并定期更新 CVE 的安全性

支持最新的社区前沿的 LLM

成本效益和性能

对于该应用程序,Amdocs 使用自托管的 NVIDIA NIM 实例来部署经过微调的 LLM。他们公开了类似 OpenAI 的 API 端点,为他们的客户端应用程序启用了统一的解决方案,该解决方案使用 LangChain 的 ChatOpenAI 客户端。

在微调探索过程中,Amdocs 创建了一个流程,通过 NIM 自动部署 LoRA 微调检查点。对于微调后的 Mixtral-8x7B 模型,该过程花费了大约 20 分钟。

结果

Amdocs 已经看到了这一过程的多重效率。

准确性提高:通过与 NVIDIA 合作,显著提高了 AI 生成响应的准确性,准确性提高了 30%。这类改进对于加快推动生成式 AI 在电信行业的广泛应用和满足面向消费者的生成式 AI 服务的需求至关重要。

使用 NVIDIA NIM,Amdocs 在成本和延迟方面都有所改进。

运营成本降低:Amdocs 在 NVIDIA 基础设施上的电信检索增强生成(RAG)使部署用例所消耗的 token 在数据预处理和推理方面分别降低了 60% 和 40%,以更低的成本提供相同水平的准确性。

延迟降低:该协作成功地将查询延迟减少了约 80%,从而确保最终用户体验到近乎实时的响应速度。这项加速提升了用户在商业、医疗、运营等领域的体验。

LLM 准确性评估

为了在微调阶段评估测试数据集上跨模型和提示的性能,Amdocs 使用了图 3 中的高级流程。

a4c990c8-18e3-11ef-b74b-92fbcf53809c.png

图 3. 包括 LLM-as-a-Judge 和人类专家在内的 LLM 评估过程

对于每个实验,Amdocs 首先在测试数据集上生成 LLM 输出预测。

然后,使用外部 LLM-as-a-Juage 来评估预测,提供准确性和相关性的指标。对符合预定义标准的实验进行自动回归测试,以验证预测细节的准确性。由此得出的分数是多种指标的混合,包括以下:

F1 分数

无幻觉指示器

准确结论指示器

回答相关性

对话一致性

无回退指示器

完整性

毒性指标

最后,手动评估性能最佳的模型,以确认总体准确性。这一过程确保了微调后的 LLM 既有效又可靠。

图 4 显示了不同 LLM 的总体准确度得分。Amdocs 观察到,与基础版本相比,Mixtral-8x7B 和 Llama2-13b-cat 的 LoRA 微调版本的准确率分别提高了 20-30%。结果还显示,与托管 LLM 服务相比,准确率提高了 6%。

a4e68868-18e3-11ef-b74b-92fbcf53809c.png

图 4. 前三名模型的平均得分提升情况

Token 消耗

重新格式化计费数据导致输入 token 减少了 60%。虽然经过微调的 LLM 产生了相当或更好的性能,但这些模型也使输入 token 额外节省了约 40%。这归因于最小化提示指令的域自定义。

图 5 显示了 Mixtral-8x7B、Llama2-13b 和托管 LLM 服务的 token 消耗之间的比较。输入 token 数量的差异主要是由于托管 LLM 服务为很好地执行任务中所需的详细指令。对于域定制的 Llama2 和 Mixtral-8x7B 模型,减少是由于持续的上下文格式改进。

a4f6d736-18e3-11ef-b74b-92fbcf53809c.png

图 5. Mixtral-8x7B、Llama2 和托管 LLM 服务的标记消耗情况

LLM 延迟

在使用 NVIDIA NIM 对 NVIDIA 80GB GPU 上部署的模型进行评估期间,Amdocs 观察到平均推理速度比先进的托管 LLM 服务快 4-6 倍,约 80%。

图 6 显示了使用单个 LLM 调用执行的延迟实验,并计算了整个生成周期的平均延迟。Llama2-13b 模型部署在一个 GPU 上,而 Mixtral-8x7B 部署在两个 GPU 上。当使用自托管端点时,响应延迟更加一致,如图 6 所示的 0.95 置信区间线所示。

a531c300-18e3-11ef-b74b-92fbcf53809c.png

图 6.每个模型的平均延迟(以秒为单位)

结论和下一步行动

NVIDIA NIM 推理微服务改善了延迟,使 Amdocs 应用程序中的处理速度更快。通过优化数据格式和微调 LLM,Amdocs 提高了其计费问答系统的准确性,同时显著降低了成本。在整个过程中,Amdocs 面临着不同的挑战,需要创造性的数据格式化、及时的工程设计和模型相关的定制。定义一个明确的模型评估策略和严格的测试是他们成功的关键。

Amdocs 正在采取下一步行动,通过使用 Multi-LoRA 为不同的应用程序创建定制模型,这是一种能够在推理过程中动态加载多个模型自适应的威廉希尔官方网站 。这种方法优化了内存使用,因为只有基本模型是一致加载的,而模型层自适应是根据需要动态加载的。

通过与 NVIDIA 合作,Amdocs 启动了将生成式 AI 集成到其核心产品组合中的战略。该战略从确定应用领域开始,通过用户体验设计使生成式 AI 的功能对用户更加友好,并优先处理快速工程。Amdocs 将继续使用 NVIDIA DGX Cloud 和 NVIDIA AI Enterprise 软件,以电信公司分类法定制大语言模型(LLM), 以进一步提高准确性并优化生成式 AI 训练和推理的成本。

Amdocs 计划在多个战略方向上继续将生成式 AI 集成到 amAIz 平台中。

使用 AI 驱动的语言和情感分析增强客户查询路由

增强其 AI 解决方案的推理能力,以提供针对客户特定需求的建议

解决需要广泛的领域知识、多模式和多步骤解决方案的复杂场景,如网络诊断和优化

这些战略将使运营和创新更加高效和有效。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4979

    浏览量

    102994
  • OpenAI
    +关注

    关注

    9

    文章

    1082

    浏览量

    6483
  • 生成式AI
    +关注

    关注

    0

    文章

    502

    浏览量

    471

原文标题:Amdocs 使用 NVIDIA NIM 加速生成式 AI 性能并降低成本

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    电机企业降低成本的误区

    从去年开始,由于去产能、环保督查等因素引起电机原材料大幅涨价,从而导致生产成本推高,很多企业在不断寻求降低成本的途径。然而,也有不少企业在降成本的过程中走入了误区!企业衡量成本优势的原
    发表于 10-11 10:20

    PADS中的ECAD/MCAD高效协作如何降低成本

    了解 PADS 如何支持电气和机械 CAD 设计人员动态协作,从而加快产品面市降低成本
    的头像 发表于 05-17 06:24 3146次阅读
    PADS中的ECAD/MCAD高效协作如何<b class='flag-5'>降低成本</b>

    智慧医疗可以更好地利用大数据 改善医疗服务降低成本

    随着医疗保健威廉希尔官方网站 的进步,消费者在健康方面的参与度和意识不断增强,智慧医疗行业随之崛起。智慧医疗可以更好地利用大数据,改善医疗服务降低成本
    发表于 03-15 16:50 2429次阅读

    AN-0972:AD7329如何帮助降低成本

    AN-0972:AD7329如何帮助降低成本
    发表于 04-25 09:17 4次下载
    AN-0972:AD7329如何帮助<b class='flag-5'>降低成本</b>

    利用可靠隔离威廉希尔官方网站 缩小尺寸降低成本

    本文介绍如何利用全新隔离威廉希尔官方网站 来保证这些高电压系统的安全,从而提高可靠性,同时缩小解决方案尺寸降低成本
    发表于 12-22 14:38 363次阅读
    利用可靠隔离威廉希尔官方网站
缩小尺寸<b class='flag-5'>并</b><b class='flag-5'>降低成本</b>

    电路板pcb打样降低成本的方法

    电路板pcb打样降低成本的方法
    的头像 发表于 12-13 17:25 802次阅读

    英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务,与同样刚推出的 Llama 3.1
    的头像 发表于 07-25 09:48 698次阅读

    全新NVIDIA NIM微服务将生成AI引入数字环境

    生成物理 AI NIM 微服务以及 NVIDIA Metropolis 参考工作流旨在协助创建智能的沉浸
    的头像 发表于 08-02 15:20 534次阅读

    CC2340系统降低成本的方案剖析

    电子发烧友网站提供《CC2340系统降低成本的方案剖析.pdf》资料免费下载
    发表于 08-27 09:43 0次下载
    CC2340系统<b class='flag-5'>降低成本</b>的方案剖析

    NVIDIA加速计算和生成AI领域的创新

    在最新发布的公司 2024 财年可持续发展报告开篇的一封信中,NVIDIA 创始人兼首席执行官黄仁勋介绍了 NVIDIA加速计算和生成
    的头像 发表于 09-09 09:18 545次阅读

    NVIDIA NIM助力企业高效部署生成AI模型

    Canonical、Nutanix 和 Red Hat 等厂商的开源 Kubernetes 平台集成了 NVIDIA NIM,将允许用户通过 API 调用来大规模地部署大语言模型。
    的头像 发表于 10-10 09:49 383次阅读

    降低成本城域网

    电子发烧友网站提供《降低成本城域网.pdf》资料免费下载
    发表于 10-12 11:46 0次下载
    <b class='flag-5'>降低成本</b>城域网

    中国AI企业创新降低成本打造竞争力模型

    在中国,面对美国实施的芯片限制以及相较于西方企业更为有限的预算,人工智能(AI)公司正积极寻求降低成本的方法,以开发出具有市场竞争力的模型。初创公司如01.ai(零一万物)和DeepSeek(深度求索)等,通过聚焦小数据集进行
    的头像 发表于 10-22 14:56 399次阅读

    日本企业借助NVIDIA产品加速AI创新

    日本领先企业和大学正在使用 NVIDIA NeMo、NIM 微服务和 NVIDIA Isaac 加速 AI 创新。
    的头像 发表于 11-19 14:34 282次阅读

    NVIDIA助力Amdocs打造生成AI智能体

    正在使用NVIDIA DGX Cloud 与 NVIDIA AI Enterprise软件开发和交付基于商用大语言模型(LLM)和领域适配模型的解决方案。该公司还在使用NVIDIA
    的头像 发表于 11-19 14:48 327次阅读