工业物联网架构师花了数年时间才得出结论,边缘需要数据中心级的性能,以实现高效分析、提高安全性和降低网络成本。在人工智能和机器学习领域,传感器设备内部或附近对高端处理能力的需求从一开始就很明显。
考虑到即使是简单的自主机器(我知道这是矛盾的说法)也需要大量的计算能力来运行神经网络来执行障碍物检测、识别和避免等功能。例如,京东和菜鸟等公司生产的自动送货车需要大约每秒 30 兆次运算 (TOPS) 的处理性能,而雅马哈正在开发的自动驾驶检查无人机需要大约 20 兆次运算 (TOPS) 的处理性能。
当然,这对嵌入式和工业工程师提出了一个经典的设计挑战:平衡每瓦性能。性能太低,应用程序失败。功耗太大,自主机器必须连接到持续的电源。
随着NVIDIA 的 Jetson AGX Xavier 模块的发布,这种情况正在改变。
服务器级性能,嵌入式功耗
Jetson AGX Xavier 核心的 Xavier SoC 包含大量异构处理性能,适用于人工智能驱动的机器人应用程序,包括:
512 核 Volta GPU,带有 64 个 TensorCore
双 NVDLA(NVIDIA 深度学习加速器)引擎
双 7 路 VLIW 视觉加速器引擎
这代表 Jetson AGX 模块的性能高达 32 TOPS,尺寸为 87 mm x 100 mm。如上图所示,该芯片还包括一个 256 位 LPDDR4X 接口,能够以 137 GBps 的速度将数据传输到模块上的 16 GB DRAM,用于与 AI 工作负载相关的频繁读写。
基本上,Jetson AGX Xavier 以嵌入式模块形式提供服务器级性能。然而,同样重要的是,该模块的功耗仅为 10W,或与台式风扇差不多。用户可将操作模式配置为 10W、15W 或 30W,NVIDIA 报告称每瓦性能 (PPW) 的最佳点在 15W 左右。即使在那个水平(大约相当于蓝光播放器的功耗),Jetson AGX Xavier 在推理性能和能源效率方面也大大超过了其前身 Jetson TX2 和 Intel Core i7 + GTX 1070 显卡。
Jetson AGX Xavier:引擎盖下
Jetson AGX Xavier 的多项功能可实现这种类型的每瓦性能,从基础芯片架构开始。虽然 SoC 上的每个内核都有自己的内存,但内存是离散 SoC 模块之间的零内存复制。虽然 AGX Xavier 模块确实通过外部 16 GB LPDDR4X DRAM 提供共享内存,但片上数据只是通过管道传递到必要的处理核心。
架构的异构性也提高了效率,因为工作负载可以在最适合任务的架构上执行。这方面的一个例子是片上加速引擎,它可以卸载 Volta GPU,以便它可以专注于更复杂或用户定义的任务。例如,在以 8 位分辨率推断固定功能卷积神经网络 (CNN) 时,NVDLA 引擎可提供高达 5 TOPS 的性能,以 16 位分辨率推断 2.5 TFLOPS 时,功耗在 0.5W 和 1.5W 之间。
同时,Carmel CPU 内核可以保留用于通用计算任务。
JetPack 简化了深度学习编程的复杂性
Jetson AGX 系列运行 Linux,这在工业嵌入式系统中变得越来越普遍。许多希望利用 Jetson AGX Xavier 性能的工业和嵌入式开发人员可能不太熟悉的是对 GPU 和/或深度学习加速器进行编程。幸运的是,NVIDIA JetPack 4.1.1 软件开发套件 (SDK)在CUDA Toolkit中提供了一揽子 API、嵌入式库以及与常用语言的集成,因此您无需了解如何编程 GPU对 GPU 进行编程。
最新JetPack版本中的一些软件工具包括:
Linux For Tegra R31.0.1 (K4.9)
CUDA 工具包 10.0
cuDNN 7.3
张量RT 5.0 GA
OpenCV 3.3.1
OpenGL 4.6 / GLES 3.2
伏尔甘 1.1
多媒体 API R31.1
阿格斯 0.97 相机 API
TensorRT 5.0 包中提供的 API 也简化了对 DLA 进行编程以执行神经网络工作负载。例如,_setDeviceType() 和 setDefaultDeviceType() 命令可用于在 GPU 或任一 DLA 上执行特定的神经网络层或层,而像 _allowGPUFallback() 这样的命令可让工作负载在 DLA 不支持的情况下恢复到 GPU 。
此外,DeepStream 3.0 SDK 支持 Jetson AGX Xavier,该 SDK 利用 TensorRT、CUDA、多媒体和成像 API 来加速视频分析应用程序的开发。
当然,低级 CUDA 编程是另一种选择。
审核编辑:郭婷
-
神经网络
+关注
关注
42文章
4771浏览量
100742 -
NVIDIA
+关注
关注
14文章
4984浏览量
103015 -
gpu
+关注
关注
28文章
4734浏览量
128914
发布评论请先 登录
相关推荐
评论