0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在腾讯云上创建SR1云实例

安晟培半导体 来源:安晟培半导体 作者:安晟培半导体 2022-06-23 10:31 次阅读

腾讯 CVM 标准型 SR1 是腾讯云推出的首款搭载 ARM 架构处理器的新一代 CVM 标准型计算实例规格。SR1 基于全核一致主频 3.0GHz 的 Ampere Altra 处理器,实例核数从 1 核到 64 核,并支持 1: 2、1: 4 等多种处理器与内存配比,相对 x86 架构实例为用户提供卓越的性价比。

Ampere 为基于 Ampere Altra 处理器的 SR1 实例提供了优化过的 AI 框架 (Ampere AI),并通过腾讯镜像市场提供免费的镜像给客户使用。本文将介绍如何在腾讯云上创建 SR1 实例,并基于 TensorFlow计算机视觉分类性能进行评测。

CPU 做推理

现下 AI 推理应用的算力来源主要有三种方式,即 CPU+AI 专用芯片,CPU+GPU 和单纯的 CPU 推理。根据 Statista 和麦肯锡之前发布的AI硬件洞察报告,基于 CPU 的推理目前仍占 50% 以上。相比其他两种模式,采用 CPU 推理的主要原因有几点:

更加灵活便利,软件主导,对应用方来说对专用硬件的依赖性低。

涉及操作系统、驱动程序、运行时组件库等的复杂性较低。

CPU 上 AI 模型算法(例如稀疏性、量化等)的持续优化创新可以提供接近 GPU 的高吞吐量。

更容易实现横向扩展并与其他软件堆栈进行集成。

更重要的是在 CPU 上搭建推理应用可以方便的将 AI 集成到业务逻辑模块,融入微服务云原生体系。

本文将介绍如何在腾讯云上创建 SR1 云实例,基于 SR1 所搭载的 Ampere Altra CPU,以 TensorFlow 为例对计算机视觉分类性能进行评测。

创建 SR1 实例

我们将创建一个 16vCPU 的 SR1 实例 SR1.4XLARGE32 来进行评测,该实例配置 16 个 Ampere Altra 物理核和 32GB 内存。

首先登录腾讯云的控制台,在“实例”类别下选择“新建”,将进入实例创建页面。由于 SR1 目前只在广州六区有售,所以需要选择“广州”->“广州六区”->”标准型 SR1”。

e7e5537a-f22e-11ec-ba43-dac502259ad0.png

然后将看到不同规格的 SR1 实例,这里我们选择 SR1.4XLARGE32 规格的实例。

e7f64afe-f22e-11ec-ba43-dac502259ad0.png

镜像选择“镜像市场”-> “从镜像市场选择”,然后搜索“Ampere”,选取“Ampere Optimized TensorFlow - Ubuntu 20.04”镜像即可免费使用 Ampere 针对 SR1 优化过的 TensorFlow 2.7 以及各种示例程序。

e7ffafae-f22e-11ec-ba43-dac502259ad0.png

e810c2ee-f22e-11ec-ba43-dac502259ad0.png

设置好其它的实例配置,就可以确认配置信息并开通实例了。

e791018a-f22e-11ec-ba43-dac502259ad0.gif

启动并连接到实例

e791018a-f22e-11ec-ba43-dac502259ad0.gif

实例创建完就可以启动并登录了。实例的 IP 地址可以从控制台获取,取决于创建时设置的登录方式,可以使用密码或密钥的方式登录实例。

e83542d6-f22e-11ec-ba43-dac502259ad0.png

登录后将看到下面的 Ampere AI 的欢迎界面。

e85287b0-f22e-11ec-ba43-dac502259ad0.png

可以看到,这个镜像除了集成了 Ampere 优化的 Tensorflow,也包含 aio-example 的测试代码,该代码也可以从 github 上获取。

运行 TensorFlow AIO 示例

TensorFlow 是一个端到端开源机器学习平台。它拥有一个全面而灵活的生态系统,其中包含各种工具、库和社区资源,可助力研究人员推动先进机器学习威廉希尔官方网站 的发展,并使开发者能够轻松地构建和部署由机器学习提供支持的应用。

我们创建实例时从镜像市场选择的镜像已经包含了针对 Ampere Altra CPU 优化过的 Tensorflow 2.7。为了运行 aio-example 提供的示例程序,我们需要先下载模型。aio-examples 提供了包括图像分类和对象检测的不同模型,有 32 位的,也有 16 位和 8 位的模型。

e87ce852-f22e-11ec-ba43-dac502259ad0.png

取决于网络状况,下载所有的模型将需要几分钟。

我们将用 TensorFlow resnet_50_v15 分类模型来进行测试和评估。ResNet50 是最常用的图像分类模型之一。

由于 Ampere Altra CPU 是单核单线程,SR1 里每一个 vCPU 都对应一个 Altra 物理核,所以在用 SR1.4XLARGE32 测试时,我们指定 AIO_NUM_THREADS 为 16。我们首先测试 FP32 的双精度模型。

e88a3a0c-f22e-11ec-ba43-dac502259ad0.png

e89ad5d8-f22e-11ec-ba43-dac502259ad0.png

可以看到,使用 16 个核心,resnet_50_v15 可以每秒处理 65.36 张图像(65.36 ips), 延时为 15ms。

下面我们再测试基于 FP16 的模型。

e8bb4052-f22e-11ec-ba43-dac502259ad0.png

e8c791cc-f22e-11ec-ba43-dac502259ad0.png

我们看到 FP16 的模型提供了高达 115.59 ips 的吞吐能力,这是因为 Ampere Altra 处理器对 FP16 提供了原生支持。相比 FP32 模型, FP16 模型可以在不影响模型的精度的前提下提供接近 2 倍的图像处理能力。

与其他实例的性能对比

这里的 aio-example 同样可以运行在基于 Intel CPU 和 AMD CPU 的腾讯 CVM 实例上。我们同样创建 16vCPU 的实例 S6.4XLARGE32 和 SA3.4XLARGE32。其中 S6.4XLARGE32 是基于 Intel Xeon Ice Lake 处理器的 16vCPU 实例,SA3.4XLARGE32 是基于 AMD EPYC Milan 处理器的 16vCPU 实例。与 SR1.4XLARGE32 不同的是,这里的 16vCPU 是 16 个线程,而非物理核,实际的物理核为 8。

我们在 S6.4XLARGE32 上运行 intel-tensorflow, 这是 Intel 优化过的 TensorFlow 以充分发挥 AVX-512 指令集的性能。

AMD 也提供了针对 AMD CPU 优化的 ZenDNN,但在腾讯 CVM 里测试的结果并不比 native 的 Tensorflow 更好,所以以下 SA3.4XLARGE32 的数据采用的是 native TensorFlow。

“resnet_50_v15”模型在 3 个平台上的性能表现如下表。

e906ddc8-f22e-11ec-ba43-dac502259ad0.png

我们可以看到,每秒处理的图像数量(ips),SR1.4xLARGE32 分别比同规格的 S6 和 SA3 实例高出 40% 和 50%;如果再考虑单个实例的价格差异,以相同的价格,SR1.4xLARGE32 可以获得比同规格的 S6 和 SA3 高出 70% 和 40% 的性能。

于此同时,SR1 实例还提供了对 FP16 的支持,可以获得更高的吞吐能力,以及更低的延时特性。

Jupiter Notebook 的可视化示例

aio-example 也提供了 Jupiter Notebook 脚本,方式编辑,调试和实现可视化。

下面将以对象检测模型 SSD Inception v2 为例。首先在 CVM 里启动 Jupiter Notebook。

e93791d4-f22e-11ec-ba43-dac502259ad0.png

在另外一台有浏览器的机器上,执行以下命令,输入实例的密码,开启 ssh 隧道;然后打开浏览器,输入上面最后一行的地址,就可以看到 AIO 的 Jupiter Notebook 了。

e94eb512-f22e-11ec-ba43-dac502259ad0.png

e95bc004-f22e-11ec-ba43-dac502259ad0.png

进入“object_detection”,点击“examples.ipynb”,将会看到 Object Detection Examples 的页面。

e96d185e-f22e-11ec-ba43-dac502259ad0.png

点击“Cell” -> “Run All”运行。

e9858498-f22e-11ec-ba43-dac502259ad0.png

查看运行结果。

e9a0a12e-f22e-11ec-ba43-dac502259ad0.png

e9b5281a-f22e-11ec-ba43-dac502259ad0.png

e9e1cd5c-f22e-11ec-ba43-dac502259ad0.png

ea022912-f22e-11ec-ba43-dac502259ad0.png

ea2fb38c-f22e-11ec-ba43-dac502259ad0.png

ea3f099a-f22e-11ec-ba43-dac502259ad0.png

也可以通过同样的方法运行 aio-examples 里面其它的示例。

结 论

采用 Ampere Altra 处理器的腾讯 SR1 实例,充分发挥了单核单线程的性能优势,同时 Ampere AI 优化软件栈将 SR1 在 AI 推理应用中,相对 x86 架构的性价比优势提升到了 70%。

除了腾讯云市场的免费镜像,用户也可以从 Ampere 解决方案网站获取即用型 Docker 映像,包括代码和文档,在接受最终用户许可协议后的进行下载。Docker 映像包含一个标准的 ML 框架(TensorFlow,PyTorch, ONNX等),预装了优化的软件,可以在腾讯 CVM SR1 无需更改即可运行推理脚本。镜像中也提供了图像分类和对象检测等示例模型。

原文标题:安博士讲堂 | 腾讯 Arm 云实例评测系列 - AI 推理

文章出处:【微信公众号:安晟培半导体】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19293

    浏览量

    229966
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10870

    浏览量

    211901
  • 腾讯云
    +关注

    关注

    0

    文章

    214

    浏览量

    16802
  • Ampere
    +关注

    关注

    1

    文章

    66

    浏览量

    4544

原文标题:安博士讲堂 | 腾讯 Arm 云实例评测系列 - AI 推理

文章出处:【微信号:AmpereComputing,微信公众号:安晟培半导体】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    华为 Flexus 服务器 X 实例之 openEuler 系统下玩转 iSulad 容器威廉希尔官方网站

    的灵活性与性能。结合华为自研的 iSulad 容器威廉希尔官方网站 ,用户能够在 openEuler 系统享受到更轻量级、更安全的应用程序部署体验。本文将带领读者深入了解如何在华为 Flexus
    的头像 发表于 12-30 14:53 48次阅读
    华为<b class='flag-5'>云</b> Flexus <b class='flag-5'>云</b>服务器 X <b class='flag-5'>实例</b>之 openEuler 系统下玩转 iSulad 容器威廉希尔官方网站

    华为 Flexus 服务器 X 实例的使用教程

    引言 选择一款性价比高、性能强劲的服务器是 IT 威廉希尔官方网站 人员常面临的问题。华为的 Flexus 服务器 X 实例是一个出色的选择,专为中小企业和开发者设计。它具备智能感知业务负载的
    的头像 发表于 12-30 09:16 112次阅读
    华为<b class='flag-5'>云</b> Flexus <b class='flag-5'>云</b>服务器 X <b class='flag-5'>实例</b>的使用教程

    华为 Flexus 服务器 X 实例之 openEuler 系统下部署 Discuz 论坛网站

    与支持。该实例不仅提供了灵活可扩展的计算资源,还特别优化了对于 openEuler 等开源操作系统的支持,确保用户能够享受到更加高效、安全且易于管理的服务体验。在本文中,我们将探索如何在华为
    的头像 发表于 12-30 09:12 111次阅读
    华为<b class='flag-5'>云</b> Flexus <b class='flag-5'>云</b>服务器 X <b class='flag-5'>实例</b>之 openEuler 系统下部署 Discuz 论坛网站

    华为 Flexus 服务器 X 实例:在 openEuler 系统下搭建 MySQL 主从复制

    前言 本文将介绍如何在华为 Flexus 服务器 X 实例,基于 openEuler 系统部署 MySQL 主从复制。MySQL 作为
    的头像 发表于 12-30 09:11 109次阅读
    华为<b class='flag-5'>云</b> Flexus <b class='flag-5'>云</b>服务器 X <b class='flag-5'>实例</b>:在 openEuler 系统下搭建 MySQL 主从复制

    基于华为 Flexus 服务器 X 实例部搭建 Halo 博客平台

    前言 在数字化转型的大潮中,华为 Flexus 服务器 X 实例凭借其强劲的性能和高性价比,成为中小企业和开发者理想的选择。本文将详细介绍如何在华为
    的头像 发表于 12-26 09:40 144次阅读
    基于华为<b class='flag-5'>云</b> Flexus <b class='flag-5'>云</b>服务器 X <b class='flag-5'>实例</b>部搭建 Halo 博客平台

    华为 Flexus 服务器 X 实例的购买及使用体验

    价比服务。其中,华为 Flexus 服务器 X 实例是一款性能强劲的服务器产品,能够满足各种场景的需求。它是一款非常出色的
    的头像 发表于 12-24 17:26 146次阅读
    华为<b class='flag-5'>云</b> Flexus <b class='flag-5'>云</b>服务器 X <b class='flag-5'>实例</b>的购买及使用体验

    印尼GOTO、腾讯与阿里签署合作协议

    近日,印尼知名科技公司GOTO与中国的腾讯、阿里正式签署了合作协议。此次携手合作,旨在共同推动印尼数字经济的发展,为当地企业提供更加全面、高效的数字化解决方案。
    的头像 发表于 11-11 14:32 284次阅读

    优易通无线DTU腾讯通信实例

    优易通无线DTU腾讯通信实例(基于MQTT)优——产品优,服务优,价格优易——安装易,使用易,维护易通——通讯威廉希尔官方网站 专家,精于通讯,万物互通一、例程环境1.操作系统Windows10,
    的头像 发表于 08-30 11:45 358次阅读
    优易通无线DTU<b class='flag-5'>腾讯</b><b class='flag-5'>云</b>通信<b class='flag-5'>实例</b>

    重塑服务,华为 Flexus X 实例破解服务传统难题

    在数字化转型的大潮中,计算不仅是企业加速变革的引擎,更是其增强竞争力的关键。企业通过“”能够迅速响应市场变化,从而在激烈的商业竞争中占据有利地位。然而,随着企业对服务的依赖日益
    的头像 发表于 08-12 09:54 581次阅读
    重塑<b class='flag-5'>云</b>服务,华为<b class='flag-5'>云</b> Flexus X <b class='flag-5'>实例</b>破解<b class='flag-5'>云</b>服务传统难题

    华为 618 营销季爆款,华为 ECS C7 实例更简单

    一年一度华为 618 营销季正在火热进行中,今年华为 618 营销季为中小企业提供多款口碑产品和解决方案,助力用户
    的头像 发表于 06-17 15:58 424次阅读

    华为 618 营销季爆款,华为 ECS C7 实例更简单

    一年一度华为 618 营销季正在火热进行中,今年华为 618 营销季为中小企业提供多款口碑产品和解决方案,助力用户
    的头像 发表于 06-07 21:17 1821次阅读

    加速企业降本增效,提升性能首选耀 X 实例

    在数字化转型的浪潮中,企业对于计算的需求愈发迫切。它们不仅需要强大的威廉希尔官方网站 支撑,更追求成本控制的最大化。华为耀服务器 X 实例(以下简称:
    的头像 发表于 05-22 19:59 909次阅读
    加速企业<b class='flag-5'>云</b><b class='flag-5'>上</b>降本增效,提升性能首选<b class='flag-5'>云</b>耀 X <b class='flag-5'>实例</b>

    腾讯正式上线第八代服务器标准型实例S8和内存型实例M8

    4月15日,腾讯正式上线第八代服务器标准型实例 S8和内存型实例M8。基于自研服务器的高密设计与硬件升级,搭载第五代英特尔至强可扩展处理
    的头像 发表于 04-30 17:16 2047次阅读
    <b class='flag-5'>腾讯</b><b class='flag-5'>云</b>正式上线第八代<b class='flag-5'>云</b>服务器标准型<b class='flag-5'>实例</b>S8和内存型<b class='flag-5'>实例</b>M8

    华为开年采购季爆款,华为 ECS C7 实例更简单

    一年一度的开年采购季正在火热进行中,今年华为开年采购季为中小企业提供多款口碑产品和解决方案,助力用户可靠又省心。其中,华为
    的头像 发表于 03-18 01:04 379次阅读

    简单第一步!华为耀服务器 L 实例亮相华为开年采购季

    服务器 L 实例(以下简称耀 L 实例)拥有智能不卡顿、上手更简单、管理特省心等特性,“三步建站、两倍性能,简单
    的头像 发表于 03-16 15:07 376次阅读
    简单<b class='flag-5'>上</b><b class='flag-5'>云</b>第一步!华为<b class='flag-5'>云</b>耀<b class='flag-5'>云</b>服务器 L <b class='flag-5'>实例</b>亮相华为<b class='flag-5'>云</b>开年采购季