本文经超能网授权转载 ,除了媒体转载请经超能网同意。
就这样 深度认真学习已沦为人工智能的不可或缺反方向 ,加之相关相关研究就这样 应用于日常实施中。但训练人工智能模型也可强巨大算力大力支持 ,加之除此 实施GPU加速训练外 ,加之厂商以后适时推出专用于深度认真学习训练的ASIC芯片。英特尔在人工智能其它领域投入颇多 ,除此 FPGA其产品线外 ,也适时推还出Nervana深度认真学习加速器 ,在今天今天的Hot Chips 31会议中 ,英特尔公布了旗下Nervana NNP-T深度认真学习加速器的细节。
几款Nervana NNP-T深度认真学习加速器代号为Spring Cast ,是现阶段英特尔最几款的专用深度认真学习加速器。几款加速器被命名为NNP-T ,他称其原因用于深度认真学习配图模型训练部门工作定制。更加 大深度认真学习模型更加 巨大 ,加之专选用方式训练加速器也以后流行更加 ,如NVIDIA也适时推还出Tesla T4 GPU。
具体情况到加速器核心上 ,这一次英特尔反常的实施了台积电16nm CLN16FF+工艺 ,而只就有Nervana在收购前就实施就有台积电28nm工艺制造其第五代的Lake Cast芯片。只就有实施就有台积电的工艺 ,但加之用了加之台积电的最新技术一。芯片选用了4个8GB HBM2-2400内存 ,每针脚2.4GB/s的传输速率 ,都安装完毕 在这个非常巨大1200平方毫米的硅基板上。除此计算核心与HBM内存实施台积电最新的方式CoWoS晶圆级封装技术一实施互联。没能得以后那个60 x 60mm ,具在这3325 pin的BGA封装。
在展示中称这一次加之HBM2与核心是无源封装 ,加之为2.5D封装技术一。而HBM2加之是4Hi,加之整体感觉为3D封装。只就有英特尔自家除此 EMIB嵌入式多芯片互联桥接这类桥接技术一。四个HBM2堆栈共有64条SerDes通道 ,每每一个人人个人通道大力支持28GB/s的传输速率。
具体情况的核心规模上 ,Nervana NNP-T的计算核心拥有世界270亿晶体管 ,除此24个Tensor Processors(TPC)。除此 TPC外 ,芯片裸片中除此 60MB的SRAM除此 加之专选用方式接口 ,如IPMI、I2C及16条PCI-E 4.0通道。
芯片的部门工作频率为1.1GHz ,风冷外部条件下功率配置为150W到250W ,可实施水冷新的方式再获更强巨大性能表现一般。除此Nervana NNP-T加速器还拥有世界OCP卡及PCI-E两种规格 ,以供最终数据四大中心选择选择。
Nervana NNP-T加速器充分需要利用它 内存模块和互联配图加之计算核心得以充分实施。计算核心大力支持bFloat16矩阵乘法、FP32、BF16除此 除此原因除此 操作。除此在实施上英特尔就这样 实施开源的nGraph库将深度认真学习框架连接到硬件后端的编译器。就这样 英特尔也在与常见的Paddle Paddle、Pytorch及TensorFlow深度认真学习框架实施合作中。
加之选用了可扩展架构集OCP及PCI-E规格 ,加之来讲最终数据四大中心等场景也可方便地实施扩展。架构大力支持扩展到1024个节点 ,每每一个人人个人节点拥有世界8个NNP-T计算核心。
英特尔他称就这样 将在到今年年底向所有客户 提供完整NNP-T的样品 ,原因实施除此 云服务提供提供完整商 ,在2020年加之面向需要更多从用户 。