Kwok Kong在IDT白皮书中描述了使用基于标准的PCI Express(PCIe)多端口交换机作为系统互连的多对等系统。自该白皮书发布以来,IDT设计并实现了一个多对等系统,该系统使用基于x86的系统作为根处理器(RP)和端点处理器(EP),通过IDT的PES16NT8非透明网桥(NTB)端口和IDT的PES64H16设备用作系统互连的多端口PCIe交换机。有关软件体系结构的详细说明,请参见应用笔记AN-571。本文介绍了这种系统的实测系统数据传输性能。
系统描述
多对等系统拓扑如图1所示。一个x4 PCIe接口用于将每个根处理器和端点处理器连接到PES64H16系统互连PCIe交换机。这是用于衡量系统数据传输性能的拓扑。
PES16NT2用于提供NTB功能,以便将基于x86的端点处理器连接到PES64H16 PCIe交换机的下游端口。系统互连软件提供了基于PCIe接口的虚拟以太网。Linux操作系统(OS)检测网络接口并“看到”以太网接口。Linux OS将以太网数据包发送到PCIe接口,就好像它是以太网接口一样。就数据传输而言,Linux OS中的PCIe接口是隐藏的。所有当前的网络协议堆栈(例如TCP / IP协议堆栈)以及能够在TCIP / IP堆栈顶部运行的用户应用程序都可以正常运行,而无需进行任何修改。
系统互连拓扑
本应用笔记介绍了PCIe SystemInterconnect的系统数据传输性能。网络性能基准测试软件netperf用于测量性能。将性能与环回测试和10 GE的性能进行比较。
对于AMD系统,有效数据传输速率在1K到16K字节之间的数据大小为3到3.5 Gbps之间。对于512字节的数据大小,数据速率约为2.5 Gbps。
对于Bensley系统,对于16K至2K字节的数据大小,有效的数据传输速率约为5 Gbps。对于1K和512字节的数据大小,有效数据传输速率分别约为4 Gbps和3 Gbps。数据传输速率与10GE接口相似。Bensley的性能比AMD好得多,因为Bensley支持DMA引擎来传输数据。DMA引擎可以更有效地传输数据,并使CPU周期从复制数据中释放出来,以进行更多的数据传输处理。
预期对于大量数据传输,数据大小可能会很大,例如4K到8K字节。实际上,可以预期的是,Bensley的PCIe系统互连的有效数据传输速率约为5 Gbps,AMD的有效数据传输速率约为3.5 Gbps。
通常,协议封装开销会降低有效带宽。但是,已经表明,对于大数据大小,带宽的减少约为1-2%。通过减少协议封装开销而增加的带宽可以忽略不计。但是,在数据传输中删除TCP / IP协议栈会导致CPU周期显着减少,并使CPU能够进行更多的数据传输处理。
编辑:hfy
-
amd
+关注
关注
25文章
5467浏览量
134131 -
数据传输
+关注
关注
9文章
1884浏览量
64578
发布评论请先 登录
相关推荐
评论