【速看料】最新架构服务器用CPU性能对比测试 性能怎么样?


(相关资料图)

提起最新架构服务器用CPU性能对比测试大家在熟悉不过了,被越来越多的人所熟知,那你知道最新架构服务器用CPU性能对比测试吗?快和小编一起去了解一下吧!

2006年的第一个季度,AMD系统达的收入超过10亿美元,占到了整个x86服务器市场的1/6。仅仅是在短短的一年之内,Opteron处理器的市场份额就从去年的6%增长到了今年的15%。在四路服务器中,Opteron占到了美国市场份额中的48%,而去年还只有23%。更为重要的是,这并不是一件“USonly”事件,同样是在全球四路服务器市场,在过去的四年时间里,AMD的市场份额增长了36%。AMD已经成为了服务器CPU市场上的标志。 而一直受到英特尔的Xeon、Itanium处理器压迫的Sun也终于在去年展现了一点复苏的迹象。其UltraSparcIV+处理器具备了一条快速的、整合的L2缓存和大数据量的L3缓存为Sun挽留了很大一部分传统的Sparc处理器用户,设计优良的GALAXYOpteron服务器系统,以及用来冲击中端x86市场的UltraSparcT1都在市场中取得了不俗的表现。 对英特尔来说,是时候做出自己应有的回应了,是到了应该在服务器用处理器方面做出点什么的时候了。而英特尔给出的答案就是Core核心的Xeon:Woodcrest。记忆体资料相依性预测功能(MemoryDisaMBIguATIon),大容量无序缓存以及大容量低潜伏期的共享L2缓存都使得Core架构在服务器任务中显得要比其他x86处理器更有效率。 本文的重点就是向用户对基于Woodcrest和其竞争对手:AMDOpteron和UltraSparcT1处理器的几种不同服务器进行一次性能上的比较。

英特尔最新的Bensley平台的一个最大优势就是优秀的兼容性:Dempsey、Woodcrest和四核心的Clovertown Xeon都使用了相同的插槽和平台。

通过为每颗CPU分配一个独立的1333MHz总线,Bensley在设计中省去了共享Xeon总线。这和老的Athlon MP平台非常相像,同时这也使得Blackford北桥、MCH的设计更加复杂。Blackford同样提供了4个内存通道和24个PCIE lanes。

由于只是部分HPC程序受到了FSB带宽的限制,DIB(DualIndependentBus)并不会为Woodcrest和Dempsey带来任何差别。多年的测试经验告诉我们大多数服务器和工作站程序并不会因为FSB速度而带来瓶颈。得益于NUMA的设计,在双核心和四核心架构中,Opteron平台不会发生太大的波动。在大多数的程序中,低延迟的整合内存控制器的影响要超过了FSB/NUMA带宽。当然,对于Clovertown或者2个Woodcrest核心整合的处理器来说,一个标准的FSB有可能会成为瓶颈,在那种情况下,DIB会是一个不错的选择。 Blackford的最大改进应该是fullyBufferedDIMMs(FB-DIMMs)的引入。在在FB-DIMmsPCB上,我们仍能发现并行DDR-2内存,不过高级内存缓冲器(AMB)则将这个并行数据流变成了一个连续的数据流向Blackford芯片转移。在内存子系统和芯片中的连续连接不仅排除了不对称问题同时也大大简化了主板的唤醒功能。唤起四通道的DDR-2内存无疑将成为一件可怕的事。

我们在Sun T2000中采用的是Solaris10操作系统。而目前能够在T2000上使用的操作系统也只有Solaris 10 3/05/ HW2。T1和现在的SPARC体系可以做到二进制兼容,不过必须是这个版本的Solaris。

下面是几款不同的服务器指标:

Sun T2000

Sun UltraSparc T1 1 GHz, 8 cores, 32 threadsSun Solaris 1032 GB (16x2048 MB) Crucial DDR-2 533NIC: 1 Gb intel RC82540EM - Intel E1000 driver

Intel Server 1:Dual Intel Xeon "Woodcrest" 3 GHz Shared 4 MB L2 cache, 1333 MHz FSB (4核心)

Blackford Chipset64 bit Gentoo Kernel 2.6.15-gentoo-r7Intel Server Board S50004 GB (4x1024 MB) Micron FB-DIMM Registered DDR2-533 CAS 4, ECC enabledNIC: Dual Intel PRO/1000 Server NIC2x Western Digital Raptor 36 GB SATAIntel Server 2:Dual Intel Xeon "Irwindale" 3.6 GHz 2 MB L2 cache, 800 MHz FSB - Lindenhurst64 bit Gentoo Kernel 2.6.15-gentoo-r7Intel Server Board SE7520AF28 GB (8x1024 MB) Micron Registered DDR2-400 CAS 3, ECC enabledNIC: Dual Intel PRO/1000 Server NIC (Intel 82546GB controller)2x Western Digital Raptor 36 GB SATAOpteron Server 1: Dual Opteron 275 2.2 GHz 2x1MB L2 cache (4 cores total)64 bit Gentoo Kernel 2.6.15-gentoo-r7Solaris x86 10MSI K8N MASTER2-FAR4 GB: 4x1GB MB Crucial DDR-400 (3-3-3-6)NIC: Broadcom BCM5721 (PCI-E)2x Western Digital Raptor 36 GB SATAOpteron Server 2: MSI K2-102A2M

ServerWorksHT2000 Chipset64 bit Gentoo Kernel 2.6.15-gentoo-r74 GB: 4x1GB MB Crucial DDR-400 (3-3-3-6)NIC: Broadcom BCM5721 (PCI-E)2x Western Digital Raptor 36 GB SATA

Opteron Server 3: HP DL385

Solaris x86 10AMD 81xx chipset64 bit Gentoo Kernel 2.6.15-gentoo-r74 GB: 4x1GB MB Crucial DDR-400 (3-3-3-6)NIC: Broadcom BCM5721 (PCI-E)2x Seagate Cheetah 36 GB - 15000 rpm - SCSI 320 MB/s{{分页}}Client Configuration: Dual Opteron 850MSI K8T Master1-FAR4x512 MB infineon Registered DDR-333, ECCNIC: Broadcom 5705Common Software64 bit Gentoo Kernel 2.6.15-gentoo-r7Apache2 2.0.55 + mod_deflate module for gzip compression.PHP4.4.1Mysql5.0.21

SPEC FP和lnt 2000是用来测试CPU性能的标准测试软件。不过,实际的测试得分受编译器的影响相当大。SPEC fp和integer将会显示最佳的性能表现。不过在实际运用中,处理器的表现会相对保守一些。

而在我们的这篇文章中,这代表着SPEC的测试数据会比它在实际应用程序的表现中略高一些。不过,通过SPEC CPU 2000,我们倒是可以很好地了解一颗处理器的性能。正如前述,测试中的Xeon 5000就是采用了新Woodcrest核心的Xeon处理器。

SPECfp
ClockspeedSPEC fp 2000
POWER5+22003271
Itanium 216662851
Xeon 516030002783
Opteron28002256
Pentium 4 E37332232

我们看到,新核心的Woodcrest要比最快的双核心Opteron快20-25%左右。而得益于新的65nm工艺,Woodcrest的核心速度提高了7%。如果AMD能够让自己的处理器频率达到英特尔的水平,将能带来15%左右的性能提升。不过在大部分的64bit和128bit SSE程序中,英特尔的Woodcrest依旧占据了非常明显的性能优势。

SPECint
ClockspeedSPEC Int 2000
Xeon 516030003057
Pentium 4 E37331870
Opteron28001837
Pentium 4 Xeon37331813
POWER5+22001705
Itanium 216661502

在对整数性能的测试中,Woodcrest轻松超越了其他几款横向对比的处理器。接下来我们就看看在服务器程序中SPEC lnt 2000的整数性能。

延迟

LMBench是一款能够用来判定内存时序和指令时序的测试软件。我们使用LMBench3.0a-5进行了测试。应该说LMBench的结果通常都是正确的,但并不总是正确的。如果软件无法正确识别出某种架构,很有可能出现错误的测试结果。因次我们非常有必要事先来检查好。

LMBench
ClockspeedL1 (ns)L1 (cycles)L2 (ns)L2 (cycles)RAM (ns)RAM (cycles)
Xeon 5160 3 GHz30001.0134.714117.3345
Pentium- M 1.6 GHz15932361092.1147
Sun T1 1 GHz9803322.122107.5105
Opteron 2752209135.51273161
Xeon Irwindale 3.6 GHz35941482848.8175

大容量的4MB L2缓存拥有一个非常低的延迟:14cycle。如果我们使用诸如ScienceMark这样的测试工具的话,我们得到的数值将是12cycle,这样来看,它会是一个非常不好的结果。不过,即便是14cycle,在3GHz下,它的表现依然令人吃惊。而Core Duo(Yonah),

另一方面,缓存的延迟相当高,不过凭借4MB的L2缓存还是将这种影响降到了最低。造成这种现象的原因可能是FB-DIMMs。AMB会造成高延迟,CAS为4的registered DDR2 533芯片会造成一个更高的延迟。这使得内存子系统中的延迟达到了非常高的115ns,而Opteron只有73ns。

ScienceMark的结果则不尽相同,Opteron系统的测试结果为65-70ns,而Woodcrest的测试结果则在70-76ns。

不过在这里,我们则更倾向于LMBench的结果。

由于具备了可以支持模块取幂和乘法的MAU,SunT1能够加速处理SSL的RSA(RivestShamirAdleman)和DSA(DigitalSignalALGorithm)的加密、解密操作。每颗T1核心都具备了一个MAU(modulararithmeticunit),这样8个核心就有了9个MAU。为了能够充分利用8个MAU,我们需要通过SCF(SolarisCryptographicFramework)来完成SSLI的计算过程。我们使用命令opensslspeed-enginepkcs11rsa来测试T1的MAU。Solaris10系统还提供了in-kernelSSL终端,它的安全性要比kernel之外的SSL终端要更完善。 我们在测试中选择了惠普的DL585来测试Opteron880的8个核心是否可以和SunT1的8个MAU一拼高下。如果想要对Woodcrest和Opteron进行比较,我们则需要检测2和4并行码。我们可以在下面的图表中看到1024bit的数值。每颗核心一个线程师最好的选择,因此我们测试DL585时使用最大的16线程,这样8线程的性能就是最强的。测试XeonIrwidale使用8线程,因此5线程就是最强的,如此类推。

我们注意到8MAU的Sun T1在关闭32“SSL RSA signing”线程后只能获得全效性能。在那种情况下,1GHz的T1能够和2.4GHz的8核心DL585取得近似的性能。如果不考虑MAU,T1的性能表现会和1.8GHzde Xeon Irwindale一样快。因此如果你想要在Sun T2000上运行自己的安全网络服务的话,对你的网络服务器进行SCF的检查将会是必不可少的了。

此外,我们注意到之前的Netburst架构的表现非常糟糕。这是因为在Pentium4核心的内部缺少了barrelshifter,这是一种能够将大量数据转换或者循环进入一个时钟周期的电路。由于缺少了这种转换装置,造成延迟过高。就大多数的x86代码而言不能忽视这一点,不过代码的加密常常需要使用到这个转换和循环的过程。我们分别在HYper-Threading打开和关闭的两种情况下进行了测试。在这种情况下,Hyer-Threading为编码加密带来了20-28%的性能提升。 我们对四核心AMDOpteron2.4GHz、四核心XeonWoodcrest和SunT1(打开MAU,分配不同长度的RSA)进行了对比测试。

RSA Encryption (Signs/s)

Opteron 2.4 GHz4 threads

Xeon 5160 3 GHz4 threads

SUN T1 with MAU32 threads

512 bit

19003

21194

35613

1024 bit

6098

6240

10722

2048 bit

1145

1087

1918

4096 bit

185

164

1

我们注意到T1的硬件加速并没有在2048bit下表现得更加优秀一些。考虑到大部分的安全程序依然是使用的1024bit,这样的结果我们也可以接受了。

在信号的检测中,服务器必须鉴定客户端的一致性。在1024bit下Woodcrest和Opteron都能检测到每颗核心超过50000keys,而且这还是OpenSSL检测程序的硬件限制。

Opteron再次在测试中取得了领先。8MAU Sun T1的速度只有4Opteron和Woodcrest的一半。加密往往要比检测代码更加损耗服务器的速度。

Apache/PHP/MySQL性能

英特尔的新Xeon在这里“扫了地”。比2.4GHz的Opteron高出75%的性能,新Xeon即使在面对3GHz的Opteron也不会存在什么问题。我们本应该做更深一步的研究,不过现在看来似乎是由于大的4MB L2缓存和Woodcrest本身不更加优秀的整数性能。而T1在这项测试中的表现则属于不好不坏。{{分页}}

Java Webserving

整个测试包括了如下几个部分:

Caucho Technology"s Resin 2.1.17 Java Virtual Machine: Java HotSpot(TM) Server VM (build 1.5.0_04-b05) Sybase ASE 15.0 for Solaris / Linux

AMD在这里的表现仍然只能算是差强人意,如果我们撇开2.4GHz和2.2GHz的两块CPU不看,3GHz的Opteron仍要比3GHz的Woodcrest慢25%!

本次用于测试的MySQL参数如下:

[mysqld]port3306socket= /tmp/mysql.sockskip-lockingkey_buffer = 1Gmax_allowed_packet = 1Mtable_cache = 1024sort_buffer_size = 2Mread_buffer_size = 2Mread_rnd_buffer_size = 8Mthread_cache = 125max_user_conNECtions = 450max_connections = 450thread_concurrency = 16

测试结果:

T1需要20-30 MySQL线程才能全速运行,这很大程度上是受到了8核心"4 thread Gatling gun core"架构的影响。

MySQL的性能很难令人满意,和上述的优化以后的图表比起来,性能下降了大约有4-5倍。

接下来我们看看单颗的双核心Woodcrest和双核心的Opteron、四核心的Sun T1的比较。

为了能对双核心进行测试,我们在这里对Xeon Irwindale也进行了测试。额外的1MB缓存使得Irwindale测试成绩改善了7-8%。不过Hyper-Threding并没有对MySQl起到什么帮助,我们注意到这里出现的一个大约7%的性能降幅。

MySQL Linux (Queries/s)
Sun T14/8 cores 1 GHzMSI K2-102A2MOpteron 275Xeon 5160Woodcrest 3 GHzMSI K2-102A2MOpteron 280
Average Dual-core(T1: quad-core)362749996805
Average Quad-core(T1: octal-core)433590904622
关键词: Intel 争论焦点