案例介绍
火山引擎通过与 NVIDIA 团队合作开发了 BMF(Babit Media Framework,多媒体处理框架),提供了丰富的 GPU 即用模块,低门槛的扩展方式,多语言接口以及各类主流框架 SDK 的简单接入,方便用户快速打造高效的全 GPU 视频处理流水线,有效解决开发效率低,链路缺乏整体优化的问题,使得 GPU 能够充分发挥其强大的并行计算能力,应用于各类视频 AI 场景。视频成为企业数字化增长新动力
在当今人们的生活中,视频化场景已经渗透到了方方面面。QuestMobile 数据显示,截止到 2023 年 5 月,中国移动视频行业整体用户规模达到 10.76 亿,月人均时长达到 64.2 小时[1]。在艾瑞研究院报告的数据中也显示,目前中国用户量排名前 100 的 APP 中,有 69% 搭载了视频类功能,65% 搭载了点播功能,51% 有直播类功能,32% 有实时音视频类功能[2]。视频应用正在从内容、娱乐行业拓展至泛互联网和大量传统行业。
2016 年抖音上线,同年全民直播和短视频时代正式开启。2018 年,业界已经广泛地使用 AI 进行内容理解,视频增强。2019 年则是云游戏的元年,这一年,低延迟成为业务关注焦点。进入 2021 年,市面上已经有大量的基于 AI 的视频增强,特效贴纸,AI 视频编辑的产品出现。如今,以 Stable Diffusion 和大语言模型(LLM) 掀起的生成式 AI 浪潮,正席卷整个行业进入另一个全新时代。GPU 不断增强的计算能力和视频图像处理能力,正好和业界的发展完全契合。与图文内容相比,企业自建视频应用对威廉希尔官方网站 积累和资金成本要求较高。为此,火山引擎与 NVIDIA 团队合作,开源了 BMF(Babit Media Framework)多媒体处理框架。该框架是视频化部署的“底座”,可为企业提供从视频生产到消费的全链路场景支持,并能协助帮助开发者低成本构建视频应用。
从 GPU 加速图像处理,
到 GPU 上部署生成式 AI 业务
NVIDIA 自 1999 年发明 GPU 驱动了 PC 游戏市场的增长,并重新定义了现代计算机图形,开启了现代 AI 时代。2012 年,NVIDIA 在 Kepler 架构上添加了硬件视频编解码器,能更好地支持视频串流和直播,也就是现在云游戏和游戏直播的原型。到了 2016 年,以卷积神经网络为代表的深度学习威廉希尔官方网站 为整个图像处理和计算机视觉领域带来革命,NVIDIA 也顺势推出了用于模型推理的 TensorRT,加速深度学习图像处理。2019 年,为了配合深度学习的发展,NVIDIA 发布了 nvJPEG,使得 GPU 可以进行图片编解码。2022 年,NVIDIA 和字节跳动联合开源了 CV-CUDA,把加速进一步推进到前后处理。
图 1. GPU 加速图像处理发展历程
但是从图像处理到视频内容生成,并非一蹴而就。
理想情况下,我们以 ControlNet 为例,它可以配合 Stable Diffusion 进行更精细的文生图。如果单纯向 Stable Diffusion 提供 cute dog 作为 prompt,Stable Diffusion 会生成形态各异的小狗。但是如果用户想要某一个特定姿势的小狗图片,就需要用更加精细的方式控制生成过程。ControlNet 就可以做到这一点。以下图为例,使用 Canny edge detector 生成输入图片的轮廓图,检测出的轮廓会和 prompt 一起被输入 ControlNet 和 Stable Diffusion,即可生成姿势样貌相同,但其他细节不同的可爱小狗了。实际上,在其他场景下我们也可以将 Canny edge detector 替换成其他的传统图像处理或者 AI 算法,比如使用 pose detector 提取人体姿势。类似的威廉希尔官方网站 还可用于文生图、图生图、image inpainting 等。
图 2. ControlNet + Stable Diffusion
部署这样一个业务具体涉及到哪些模块和环节呢?首先,需要图片和视频的编解码,模型的推理(ControlNet/Stable Diffusion),还有前后处理(Canny edge detector)。GPU 有编解码器,可以运行 TensorRT 和 CV-CUDA,能够将这些模块一一加速。理想情况下,开发者应当充分利用 GPU 各种的硬件单元,减少 GPU 和 CPU 之间的拷贝,让视频和图片存留在 GPU;如果涉及跨界点通信,如将处理前后的视频在网络和 GPU 之间传输,还需要结合 GPU Direct RDMA,简化通信链路,大幅降低延迟、提升吞吐。并且开发过程遵循阿姆达尔定律(Amdahl's law),将尽可能多的环节加速,整体的性能才能最优。
但实际上,火山引擎视频团队遇到了不同模块之间通信不畅,整体性能不高等诸多问题。本质上是因为视频处理变得越来越复杂,环节越来越多。2000 年 FFmpeg 刚出现的时候,需要面对的编解码需求是非常简单的,单机、个人用户、简单处理、容错要求低、用户耐心强。但是用户对于视频处理的要求已经今非昔比,算法和应用的复杂度越来越高,用户体验要求也越来越高。以前用户在电脑前长时间等待编解码完成的耐心,已经被短视频的秒级延迟,甚至 VR/AR、云游戏这样的毫秒级延迟所取代。视频处理涉及的威廉希尔官方网站 栈也越来越多,包括编解码、图像处理、深度学习甚至图像渲染。
NVIDIA 加速火山引擎为视频云
提供更理想的处理框架:BMF
面对这些挑战,NVIDIA 和火山引擎紧密合作开发了 BMF,旨在帮助企业和开发者将各类视频的原子能力与方案做到优势互补、协同工作和快速落地。多媒体处理框架 BMF 的整体架构分为应用层、框架层、模块层和异构层,共 4 个部分:
-
应用层:即顶层,为用户提供多语言的 API,包括 Python、Go、C++,方便用户根据不同的项目需求进行开发集成。
-
框架层:即中间层,包括框架对 graph / pipeline 的调度、跨数据类型跨设备的数据流转 ackend、以及常用的跨设备 reformat、color space conversion、tensor 算子等 SDK。
-
模块层:包含了具备各种原子能力的模块,提供多种语言的模块开发机制,用户可根据自身需要将算法/处理实现为 Python、Go、C++ 语言的任意一种。
图 3. BMF 架构图(绿色高亮表示支持 GPU 加速)
火山引擎通过与 NVIDIA 团队深入合作,针对 GPU 相关的框架层能力、处理能力进行了深度优化,从框架层和模块层对 BMF 都进行了深入改造,针对各种场景进行了开发和测试,并且贡献了多种应用层示例。BMF 提供了丰富的 GPU 即用模块,低门槛的扩展方式,多语言接口以及各类主流框架 SDK 的简单接入,方便用户快速打造高效的全 GPU 视频处理流水线,有效解决前文所述的开发效率低,链路缺乏整体优化的问题。这一系列的工作,使得 GPU 能够充分发挥其强大的并行计算能力,应用于各类视频 AI 场景。
比如在大型活动直播、电商直播间等场景中,通过“极致超清”威廉希尔官方网站 ,能够有效提升画质体验;针对不同损伤情况的经典影片,通过“AI 修复”威廉希尔官方网站 ,能够对损伤后的影片进行全面的画质提升;在 VR/AR 等复杂图像场景中,通过“ VR 360° 全景图像威廉希尔官方网站 ”帮助图像实现更加高清的效果。
火山引擎总裁谭待表示:“在营销、空间、商业和知识的交互体验都在发生变化的视频化时代,视频云威廉希尔官方网站 因其从视频生产,处理、传输至消费的全链路威廉希尔官方网站 能力被赋予了重要使命。随着 AIGC、XR 等威廉希尔官方网站 的兴起,新威廉希尔官方网站 与视频云的融合将带来更多创新和价值。”
字节跳动视频架构负责人、火山引擎视频云架构威廉希尔官方网站 总监王悦表示:“BMF 框架是基于抖音多年实践打磨出来的,火山引擎又携手 NVIDIA 针对 GPU 相关能力进行了深度优化,使其能够发挥更强大的并行计算能力。“
目前,BMF 已经全面开源,包含 BMF 框架层整体开源、9 个开箱即用案例、20+ API 调用范例,旨在帮助开发者低成本地构建视频应用。
欢迎访问BMF Github(https://github.com/BabitMF/bmf)页面,了解更多信息。
数据来源:
[1] 资料来源于 QuestMobile 研究院《2023 内容视频化与商业化洞察报告》:https://www.questmobile.com.cn/research/report/1678658723797635073 。[2] 资料来源于艾瑞咨询《2022 年中国视频云服务行业研究报告》:https://report.iresearch.cn/report/202207/4038.shtml。 GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。点击“阅读原文”或扫描下方海报二维码,关注更多会议及活动信息。
原文标题:NVIDIA 助力火山引擎开源多媒体处理框架 BMF,将抖音、西瓜视频的先进威廉希尔官方网站 推向千行百业
文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。
-
英伟达
+关注
关注
22文章
3773浏览量
91020
原文标题:NVIDIA 助力火山引擎开源多媒体处理框架 BMF,将抖音、西瓜视频的先进威廉希尔官方网站 推向千行百业
文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论