0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA网卡助力分布式应用实现精确计时功能

GLeX_murata_eet 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2021-08-23 16:05 次阅读

NVIDIA ConnectX 网卡助力社交网络关键任务的分布式应用实现精确计时功能。

Facebook 正在开放其开源计算项目 —— 时间设备项目(OCP TAP)的源代码,该项目以经济高效的方式提供高度精确的计时功能,以及跨数据中心时间同步功能。在 NVIDIA ConnectX-6 Dx 网卡(NIC)的支持下,这项解决方案中的 Time Card 通过精确计时协议,可以将几乎所有商用现成的(COTS)服务器变成精确的计时设备,与整个数据中心内的其他服务器共享精确计时。

Facebook Time Card 和 NVIDIA 网卡这对组合为数据中心运营商提供了一个先进和低成本的时间同步解决方案,并且该解决方案具有开源、安全、可靠和可扩展等特点。

精确的时间为什么对于数据中心至关重要

随着应用的扩展并且 IT 运营遍布全球,保持数据中心内不同服务器,或位于各大洲不同数据中心的数据同步,变得更加重要和困难。

分布式数据库必须追踪事件的确切顺序以保持一致性并显示因果关系。如果有两个人试图购买同一只股票,那么根据公平性(和合规性)原则,就必须知道买单的先后顺序。同样,当每小时有上千万人发布内容,数百万用户喜欢/称赞/喜爱这些帖子时,Facebook 必须知道每个帖子、每次点赞、每条回复或每个表情符号的实际发生顺序。

保持数据同步的方法之一是让每个数据中心在每件事务操作完成后向其他中心发送更新,但由于数据中心之间的延迟太高,以至于无法支持每小时数百万个事件,这种做法很快就变得无法维持。

更好的方法是让每个服务器和数据中心同步到精确的时间,使彼此之间的时间误差不超过一微秒。这样每个站点都能追踪时间,并且当它们与其他数据中心共享事件时,能够正确排序每个事件。

时间同步越精确,应用性能就越快。最近的一项测试表明,将计时精度提高 80 倍(将任何时间差异减小 80 倍)能够使分布式数据库的运行速度提高 3 倍。在相同的服务器硬件上仅仅通过提高更精确和更可靠的时间就能实现显著的性能提升。

网卡和网络在时间同步中的作用

OCP TAP 项目(以及 Facebook 关于开源时间设备的博客文章)确切地定义了 Time Card 如何接收和处理来自 GPS 卫星网络的时间信号,即使在卫星信号暂时不可用时,也能保持精确的时间并与时间服务器共享这一精确的时间。同时,网络以及所使用的网卡也发挥着至关重要的作用。

时间设备中的网卡必须有一个用于连接 Time Card 的每秒时间脉冲(PPS)端口。这能确保每个时间服务器中 Time Card 和网卡之间的精确时间同步(精确到几纳秒之内)。ConnectX-6 Dx 是首批支持此功能的现代 25/50/100/200Gb/s网卡之一。它还能过滤和检查传入的 PPS 信号,并使用其 ASIC 中的硬件在内部维护时间,从而确保精确性和一致性。

计时精度达到次微秒级的时间装置可以与数百个使用网络时间协议(NTP)的普通服务器或数万个使用精确时间协议(PTP)的服务器共享该计时。由于网络会增加时间信号的延迟,因此 NTP 和 PTP 通过为数据包添加时间戳来测量两个方向的传输时间、将抖动和延迟考虑在内并计算出每个服务器上的正确时间(PTP 的精度更高,因此它开始取代 NTP 协议)。

另一种方法是使用软件解决方案来添加时间戳,但在由于拥堵或 CPU 的干扰,用软件添加时间戳的误差可能达到几毫秒,因此以今天的软件方案添加时间戳是过于难预测、不精确、甚至是不可行的。

相反,ConnectX-6 Dx 网卡和 BlueField-2 DPU 可以在高达 100Gb/s的速度下,在接收的数据包到达后和发送的数据包进入网络前,立即为它们添加硬件时间戳。ConnectX-6 Dx 可以为每一个数据包添加时间戳,即使在网络负载极大的情况下,时间戳的精度误差也小于 4 纳秒(4ns)。

其他大多数具有时间功能的网卡只对部分数据包进行标记并且精度抖动很大,因此在网络流量大的情况下,它们的时间精确性就会下降。

NVIDIA 网络解决方案为商用网卡提供最精确的延迟测量,从而在所有服务器上实现最精确的时间,应用层面的时间误差通常低于一微秒(<1us)。

网络计时精度的提升意味着每台服务器上的时间变得更加精确,这将为分布式应用带来更快的性能(并且为每个人带来更多的 Facebook “点赞数”)。

精确时间同步,人人皆可受益

OCP 时间设备项目使任何组织都能获得精准的计时功能。来自 Facebook、NVIDIA 和 OCP 的开源时间服务器和开源管理工具提供了一个让每个人都可以像超大规模用户一样轻松使用这项功能的方法。

NVIDIA 所提供的精确时间功能网卡和 DPU(数据处理器)具有精确计时设备所需的超精确时间戳和网络同步功能。当使用 BlueField DPU 时,就可以在其 Arm 核上运行 PTP 栈,从而将时间栈与其他服务器软件隔离、持续验证该服务器内的时间精确性并持续计算整个数据中心的最大时间误差范围。

为了发挥经过优化的时间服务器和时间同步所带来的优势,云服务和数据库已经增加了基于时间的新命令和 API。这些解决方案一同开启了精确计时的新时代,提高了分布式应用的性能并为云和企业带来新型解决方案。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4994

    浏览量

    103162
  • 服务器
    +关注

    关注

    12

    文章

    9203

    浏览量

    85532
  • 网卡
    +关注

    关注

    4

    文章

    312

    浏览量

    27395
  • 云服务
    +关注

    关注

    0

    文章

    823

    浏览量

    38928

原文标题:NVIDIA 助力 Facebook 新一代计时系统实现精确计时

文章出处:【微信号:murata-eetrend,微信公众号:murata-eetrend】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于ptp的分布式系统设计

    在现代分布式系统中,精确的时间同步对于确保数据一致性、系统稳定性和性能至关重要。PTP(Precision Time Protocol)是一种网络协议,用于在分布式系统中实现高精度的时
    的头像 发表于 12-29 10:09 114次阅读

    HarmonyOS Next 应用元服务开发-分布式数据对象迁移数据权限与基础数据

    设备文件访问实现文件的迁移,难以获取文件同步完成的时间。为了保证更高的成功率,文件的迁移不建议继续通过该方式实现,推荐使用分布式数据对象携带资产的方式。开发者此前通过跨设备文件访问实现
    发表于 12-24 09:40

    分布式通信的原理和实现高效分布式通信背后的威廉希尔官方网站 NVLink的演进

    大型模型的大小已经超出了单个 GPU 的范围。所以就需要实现跨多个 GPU 的模型训练,这种训练方式就涉及到了分布式通信和 NVLink。 当谈及分布式通信和 NVLink 时,我们进入了一个引人入胜且不断演进的威廉希尔官方网站 领域,下面我
    的头像 发表于 11-18 09:39 487次阅读
    <b class='flag-5'>分布式</b>通信的原理和<b class='flag-5'>实现</b>高效<b class='flag-5'>分布式</b>通信背后的威廉希尔官方网站
NVLink的演进

    WDS分布式存储系统软件助力电信工程海量数据存储项目

    WDS分布式存储系统软件助力电信工程海量数据存储项目
    的头像 发表于 11-11 09:59 198次阅读
    WDS<b class='flag-5'>分布式</b>存储系统软件<b class='flag-5'>助力</b>电信工程海量数据存储项目

    分布式光纤声波传感威廉希尔官方网站 的工作原理

    分布式光纤声波传感威廉希尔官方网站 (Distributed Acoustic Sensing,DAS)是一种利用光纤作为传感元件,实现对沿光纤路径上的环境参数进行连续分布式测量的威廉希尔官方网站 。
    的头像 发表于 10-18 14:50 751次阅读
    <b class='flag-5'>分布式</b>光纤声波传感威廉希尔官方网站
的工作原理

    分布式功能安全的创新与突破

    近日,Imagination推出全新性能最高且具有高等级功能安全性的汽车GPUIP——ImaginationDXSGPU,并且是Imagination第一款带有“分布式安全机制”的处理器。下载白皮书
    的头像 发表于 09-20 08:09 257次阅读
    <b class='flag-5'>分布式</b><b class='flag-5'>功能</b>安全的创新与突破

    分布式故障诊断装置

    的,以及它是如何帮助电力系统实现高效、精确的故障诊断和预警的。一、故障诊断过程:深圳鼎信智慧分布式故障诊断装置,监测装置在导线上直接安装,监测范围达到30公里,不用每
    的头像 发表于 08-19 18:31 481次阅读
    <b class='flag-5'>分布式</b>故障诊断装置

    HarmonyOS开发实例:【分布式手写板】

    使用设备管理及分布式键值数据库能力,实现多设备之间手写板应用拉起及同步书写内容的功能
    的头像 发表于 04-17 21:45 515次阅读
    HarmonyOS开发实例:【<b class='flag-5'>分布式</b>手写板】

    HarmonyOS实战案例:【分布式账本】

    Demo基于Open Harmony系统使用ETS语言进行编写,本Demo主要通过设备认证、分布式拉起、分布式数据管理等功能实现
    的头像 发表于 04-12 16:40 1340次阅读
    HarmonyOS实战案例:【<b class='flag-5'>分布式</b>账本】

    分布式系统助力企业实现会议资料的安全管理与共享

    讯维分布式系统在企业会议资料的安全管理与共享方面发挥着重要作用。该系统通过采用先进的安全威廉希尔官方网站 和功能设计,确保会议资料的安全性,同时提供高效的共享机制,助力企业实现会议资料的便捷管理。
    的头像 发表于 03-21 14:20 320次阅读

    Redis实现分布式多规则限流的方式介绍

    市面上很多介绍 Redis 如何实现限流的,但是大部分都有一个缺点,就是只能实现单一的限流,比如 1 分钟访问 1 次或者 60 分钟访问 10 次这种,但是如果想一个接口两种规则都需要满足呢,我们的项目又是分布式项目,应该如何
    的头像 发表于 02-26 10:07 513次阅读
    Redis<b class='flag-5'>实现</b><b class='flag-5'>分布式</b>多规则限流的方式介绍

    分布式控制系统的七个功能和应用

    分布式控制系统的七个功能和应用  分布式控制系统是一种由多个独立的控制单元组成的系统,每个控制单元负责系统中的一部分功能。它具有分散的、自治的特性,可以提高系统的可靠性、灵活性和可扩展
    的头像 发表于 02-01 10:51 1426次阅读

    鸿蒙OS 分布式任务调度

    形式、数据结构、服务描述语言,屏蔽硬件差异;支持远程启动、远程调用、业务无缝迁移等分布式任务。 分布式任务调度平台在底层实现 Ability(分布式任务调度的基本组件)跨设备的启动/关
    的头像 发表于 01-29 16:50 506次阅读

    什么是分布式架构?

    分布式架构是指将一个系统或应用拆分成多个独立的节点,这些节点通过网络连接进行通信和协作,以实现共同完成任务的一种架构模式。这种架构模式旨在提高系统的可扩展性、可靠性和性能表现。 一、分布式架构的特点
    的头像 发表于 01-12 15:04 1256次阅读
    什么是<b class='flag-5'>分布式</b>架构?

    分布式节点服务器是什么?

    分布式节点服务器是一种将多个服务器分布式连接、协同工作,以实现负载均衡、提高系统性能和可靠性、提供高可用性的服务器架构。 具体来说,分布式节点服务器是通过将一个大型系统分成多个子系统,
    的头像 发表于 01-12 15:04 751次阅读
    <b class='flag-5'>分布式</b>节点服务器是什么?