有图有真相:深度拆解谷歌TPU3.0,新一代AI协同处理器

在今年的年度I/O大会上,谷歌给人留下深刻印象。它不仅推出了一系列基于TPUv2芯片的云计算TPU实例的基准测试,还透露了一些有关其下一代TPU芯片即TPU3.0,以及其系统架构的简单细节。TIRIASResearch的顶尖技术专家和首席分析师PaulTeich近日在nextplatform发文,对谷歌TPU3.0进行了深度揭秘。

谷歌将TPUv2版本升级为TPU3.0,但讽刺的是,据我们所知的种种细节表明,从TPUv2到TPU3.0(下文称之为TPUv3)的跨度并没有那么大;或许称其为TPUv2r5或类似的东西会更合适。

如果你对TPUv2还不太熟悉,可以了解一下我们去年所做的关于TPUv2的评测来增加这方面的知识结构。我们使用谷歌对云TPU(CloudTPU)的定义,云TPU是一块包含四个TPU芯片的主板。谷歌目前的云TPU测试程序只允许用户访问单个云TPU。除了其内部开发人员,其他人无法以任何方式将云TPU联合使用。去年我们了解到,谷歌已经在其TensorFlow深度学习(DL)框架下抽取出云TPU。除了谷歌内部的TensorFlow开发团队和GoogleCloud之外,没有人可以直接访问云TPU硬件,可能永远也不能。

我们还认为,谷歌已经资助了一项庞大的软件工程和优化工作,以实现其当前测试云TPU的部署。这促使谷歌在TPUv3中尽可能多地保留TPUv2的系统接口和行为,即硬件抽象层和应用程序编程接口(API)。关于何时提供TPUv3服务、将其置于云TPU或多机架pod配置中,谷歌没有提供任何信息。它的确展示了基于TPUv3的云TPU板的照片和一些pod照片,并作出以下声明

TPUv3芯片运行温度非常高,以致谷歌首次在其数据中心引入液体冷却技术每个TPUv3pod的功率将是TPUv2pod的八倍每个TPUv3pod性能将为每秒钟运算100多千万亿次(petaflops)不过,谷歌也重申,TPUv2pod的时钟频率为11.5千万亿次每秒。8倍的改进应该会使TPUv3pod的基本频率达到92.2千万亿次,但100千万亿次的运算意味着这几乎是TPUv2的9倍了。谷歌的营销人员应该四舍五入取整了,所以这个数字可能不太准确。

POD

从TPUv3pod的两张完整照片中可以明显看出,谷歌的下一代产品已经升级

每个pod的机架数量是原来的两倍。每个机架的云TPU数量是原来的两倍如果没有其他变化,光这两点足以使TPUv2pod的性能提高4倍。

有图有真相:深度拆解谷歌TPU3.0,新一代AI协同处理器

podTPUv2(上)和TPUv3(下)

机架

TPUv3pod机架的间隔比TPUv2机架的间隔更小。但是,与TPUv2pod一样,TPUv3pod中仍然没有明显的储存组件。TPUv3的机架也更高,以适应添加的水冷装置。

有图有真相:深度拆解谷歌TPU3.0,新一代AI协同处理器

机架TPUv2(左)和TPUv3(右)

谷歌将不间断电源从TPUv2机架底部移到TPUv3机架顶部。我们假设现在机架底部的大体积金属盒中包含水泵或其他水冷相关装置。

有图有真相:深度拆解谷歌TPU3.0,新一代AI协同处理器

现代超大规模数据中心不使用活动地板。谷歌的机架在加水之前就很重了,所以它们被直接置于混凝土板上,水从机架顶部进出。谷歌的数据中心有很多高架空间,如TPUv3pod的照片所示。然而,悬挂重水管道和确定路径一定是额外的操作挑战。

有图有真相:深度拆解谷歌TPU3.0,新一代AI协同处理器

TPUv3的水连接(左上)、水泵(左下,猜测)和机架上的数据中心基础架构(右)

注意地板上机架前的绞合线,就在机架底部的大金属盒前面,可能是湿度传感器。

架子和主板

谷歌不仅将计算机架密度提高了一倍,还将服务器主板与云TPU的比率从一对一降到了一对二。这将影响功耗估计,因为TPUv3pod的服务器和云TPU将从同一机架电源中获取电力。

谷歌将当前云TPUbeta实例所使用的服务器主板作为计算引擎n1-standard-2实例计入其云平台公共云中,该云平台公共云具有两个虚拟CPU和7.5GB内存。我们认为这很可能是一款主流双插槽X86服务器。

回想一下,TPUv2pod包含256个TPUv2芯片和128个服务器处理器。TPUv3pod将使服务器处理器增加一倍,TPU芯片数增加三倍。

有图有真相:深度拆解谷歌TPU3.0,新一代AI协同处理器

我们认为谷歌在其TPUv2pod中过度调配了服务器。这对于新的芯片和系统架构来说是可以理解的。在对pod软件进行了至少一年的调整并对芯片进行了一次小的修订以后,把服务器的数量减少一半对pod性能的影响可能微不足道。其中可能有诸多原因,或许是服务器没有计算或带宽限制,又或者谷歌可能部署了新一代具有更多核的IntelXeon或AMDEpyc处理器。

有图有真相:深度拆解谷歌TPU3.0,新一代AI协同处理器

泊祎回收网遵循行业规范,任何转载的稿件都会明确标注作者和来源;

发布者:泊祎回收网,转载请注明出处:https://www.huishou5.net/dianzi/131463.html

(0)
打赏 微信扫一扫 微信扫一扫
泊祎回收网泊祎回收网
上一篇 2021年7月21日
下一篇 2021年7月21日

相关推荐

电话

联系我们

1388-0022-916

在线咨询:点击这里给我发消息

邮件:1395700887@qq.com

工作时间:周一至周日,9:30-18:30,节假日无休

微信
微信
分享本页
返回顶部