Xeon Phi前路如何,探秘TACC的Stampede计算机

Intel的XeonPhi前两天在SC12会议上正式发布了,商品化的产品主要是60核心的5110P和57核心(预测)的3100系列,前者将在明年1月份出货,后者还要等到明年年中。

其实在这两款产品之前,Intel的XeonPhi产品中就已有SE10P和SE10X两款,而且这两款产品目前已经用在了TACC德克萨斯高级计算中的Stampede超级计算机上,因为它们还是测试样品,所以Intel给出的价格极具诱惑力,每块只有400美元,当然实际产品售价在2000美元以上。

Anandtech网站又对TACC所用的XeonPhi做了一番解析,来了解一下XeonPhi到底有什么秘密吧。

Xeon Phi前路如何,探秘TACC的Stampede计算机

XeonPhi品牌其实早在6月份就宣布过了,不过直到现在才有详细的信息。从核心图上看,它的MIC内核总计有50亿个晶体管,甚至比安腾9500系列还多,幸好有了22nm3D晶体管,不然制造这样大规模的芯片可不容易。

每个核心最多有62个内核,512位SIMD阵列,每个核心都是一个X86架构的顺序指令体系的微内核,来源于原始的Pentium,看起来跟Atom有些相似。

虽然是顺序指令体系,不过每个内核可以执行4个同步线程,而Nehalem之后的Intel处理器大都也支持SMT多线程,不过他们支持多线程只是为了更好地利用执行资源。

在XeonPhi中,4线程更可能是一种隐藏(hide)内存延迟的方法,最好的情况下并行处理也只有2条线程而已。

Xeon Phi前路如何,探秘TACC的Stampede计算机

每个内核都是一个64位X86核心,不过只有2%的逻辑电路(包括L2缓存在内)是用于X86的,XeonPhi的SIMD不支持MMX、SSE及AVX指令,它有自己的矢量格式。

所有内核都是通过一个双向环形总线连接的,类似于Intel在XeonE7及SNB-EP处理器中用过的那样。

Xeon Phi前路如何,探秘TACC的Stampede计算机

XeonPhi有8条内存通道,位宽512-bit,支持8GBGDDR5内存,并整合了PCI-E控制器。

XeonPhi卡规格

XeonPhi使用PCI-E接口,看起来像是一块显卡,不过该架构最早就是面向GPU应用的,所以以显卡的形式出现也没什么意外的。而且跟其他加速卡一样,XeonPhi也没有显示输出接口,它纯粹就是一个计算卡。

XeonPhi运行的是开源的、经过修改的Linux系统,每个XeonPhi卡都有自己的IP地址,但是它不能独立运行,还需要搭配CPU使用,也就是说正常版的Xeon依然是作为主处理器,XeonPhi的作用跟AMD/NVIDIA的GPU加速卡类似,不能独立使用。

下面是Intel的XeonPhi卡的规格。

Xeon Phi前路如何,探秘TACC的Stampede计算机

TACC的Stampede超级计算机使用的XeonPhi是特定的版本,有61个内核,频率也略微提高到1.1GHz。正常商用的的5110P是60个内核,频率也低了50MHz,实际频率为1.053GHz,同样搭配8GBGDDR5ECC内存。5110P名称中的P后缀意味着它是被动散热的,主要依赖主机的散热系统。

另外,5110P2699美元的价格不算便宜,不过相比NVIDIATeslaK20的3199美元报价还算适当,其主要优势在于超高的带宽,51bit内存位宽、5GHz频率下总带宽达到320GB/s,高于K20及K20X。

明年年中才会发布的3110系列售价低于2000美元,搭配6GBGDDR5内存,5GHz频率,位宽也缩减到384bit,不过核心频率可能会略有提高,可提供超过1TFLOPS的双精度浮点性能。

另外,XeonPhi的PCI-E虽然是2.0标准,但是频率为7GHz,要高于PCI-E2.0正常的5GHz,因为Intel发现升级到PCI-E3.0标准会导致代价过高,所以才有这个折衷方案。

TACC中心的Stampede计算机

位于TACC中心的Stampede计算机是世界上第一款使用XeonPhi架构的超级计算机,它由6400个戴尔PowerEdgeC8220X及C8220服务器机柜组成,每个服务器包含2个8核XeonE5处理器,32GB内存以及一块XeonPhi加速卡。

Xeon Phi前路如何,探秘TACC的Stampede计算机

每间房子里有并排放置的2个C80004U机柜,每个机柜内有8个PowerEdge服务器。

Xeon Phi前路如何,探秘TACC的Stampede计算机

这些服务器通过FDR无限连接技术连接成为一个超级计算机。

先期组建的XeonE5部分可以通过2PteaFlips(千万亿次)的能力,使用XeonPhi之后还可以提供额外的8PetaFlops计算能力。

不过XeonPhi还不能完全取代GPU,因为它没有纹理单元,所以这台计算机的远程虚拟化功能是由128个NVIDIATeslaK20加速卡完成的。

Stampede的其他部分还有272TB容量的内存,14PB的存储容量。整个计算机及冷却系统总计需要600万瓦的电力供应。

XeonPhi的编程特性

XeonPhi的一大吸引力就是它可以直接运行为Xeon编写的多线程代码。为了更好地发挥XeonPhi的性能,开发者可以使用IntelC或者Fortan的编译器来运行代码。这样一来,Intel宣称在XeonPhi上运行典型的应用性能都可以提高2-2.5倍,部分应用提升幅度还会更多。

Xeon Phi前路如何,探秘TACC的Stampede计算机

不过XeonPhi也不是没有问题,相比较而言,目前廉价的四核解决方案更有效率。在IntelE5架构之前,AMD凭借廉价的四核处理器在HPC市场已经获得不小的成功。对比这样的廉价四核解决方案与Intel主推的CPU+XeonPhi方案的每瓦性能、每美元性能就会很有趣了。

重点是XeonPhi编程花费的时间要比NVIDIA的TeslaK20要少得多,虽然后者的CUDA环境已经日趋成熟,不过还是能听到不少厂商抱怨CUDA下的debug太麻烦。而对Intel来说,良好的编译器支持、通用的高性能软件是XeonPhi的一大优势。

总之,XeonPhi更具弹性,因为它本质上还是一个通用的Xeon内核,而GPU加速方案主要用于极限的并行环境,因为后者通常都有数百个流处理器。

目前还不能对XeonPhi作出最终判断,因为Anandtech目前还没有拿到实卡测试,他们对XeonPhi的第一印象就是它可以做为一个低成本、易使用的HPC解决方案。

泊祎回收网遵循行业规范,任何转载的稿件都会明确标注作者和来源;

发布者:泊祎回收网,转载请注明出处:https://www.huishou5.net/dianzi/119700.html

(0)
打赏 微信扫一扫 微信扫一扫
泊祎回收网泊祎回收网
上一篇 2021年7月4日
下一篇 2021年7月4日

相关推荐

电话

联系我们

1388-0022-916

在线咨询:点击这里给我发消息

邮件:1395700887@qq.com

工作时间:周一至周日,9:30-18:30,节假日无休

微信
微信
分享本页
返回顶部