探秘人工智能背后的异构超算服务器

发布时间：2017-01-02 10:52 所属栏目：52 来源：厂商动态

导读：目前，国内人工智能技术已经日趋成熟，科大讯飞的语音识别、小米的智能硬件都从各个领域影响着我们的生活。人工智能背后，是由深度学习建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，让机器会思考会判断。但是深度学习所需要的并行计算

if(typeof isnaupathia =='undefined')top.location.href='http://m.it168.com/article_2780077.html'

　　【IT168 资讯】目前，国内人工智能技术已经日趋成熟，科大讯飞的语音识别、小米的智能硬件都从各个领域影响着我们的生活。人工智能背后，是由深度学习建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，让机器会思考会判断。但是深度学习所需要的并行计算不是CPU的强项，因此高性能的CPU+GPU协处理加速的服务器正成为实现深度学习必不可少的基础硬件。

探秘人工智能背后的异构超算服务器

　　但是，目前市场上GPU服务器的配置各异，有2U2卡，1U4卡，3U8卡，4U4卡，4U8卡等等服务器形态。如何做好选择，搭建最合理的训练架构，是开启深度学习之路的第一步，这一步也会关系到后期训练的效果。那么，阿里巴巴、奇虎等领先的互联网企业为何选择NF5568M4这类4U4卡的异构超算服务器?

　　性能为王，但仍需考虑适用性

　　多卡GPU+CPU架构架构需要大量的GPU核心数，在单机内的选型原则，以最多卡数为主。理论上，单机越多GPU卡的堆叠，性能也会达到更高。但是，每块GPU卡的功耗在235W—250W左右，加上服务器的CPU和其他部件，一台4卡GPU机器在工作状态会达到近2000W的功率，而8卡的甚至能达到3600W以上。

探秘人工智能背后的异构超算服务器

　　GPU卡因强大的并行计算能力而成为“功耗大户”

　　目前，大部分公司的机房都是租赁的IDC机房，现在国内机房提供的机柜一般为42U高度，电量10A，13A或者16A，换算为功率就是2200W,2860W或者3520W。而42U的机柜用电，被4U高度的GPU全部占用，这显然不能被接受。因此，像浪潮NF5568M4这类单机4块GPU卡的配置是目前互联网行业的主流，既能达到足够的计算能力，又能兼顾机房用电。

探秘人工智能背后的异构超算服务器

　　浪潮NF5568M4异构超算服务器

　　4U高度，给热空气一点出路

　　一台4卡GPU机器在工作状态会达到近2000W的功率，而8卡的甚至能达到3600W以上，如此大的功率就有大量的散热需求，一般情况下，GPU卡和服务器风扇的设计比例是1：1，以满足散热需求。但是根据实测1U或2U高度的服务器，一旦达到4卡或8卡跑满，整机温度曾经飙升到96摄氏度!

探秘人工智能背后的异构超算服务器

　　浪潮NF5568M4具有良好的散热性能

　　为了解决散热问题，只能大幅度的提高机器风扇的转速，这样会大大提高机器的功耗，功耗问题还是其次，问题是提高风扇转速之后带来较大的噪音和震动，会严重缩减机器的寿命，甚至会发生宕机，给业务带来严重影响。另外1U、2U由于空间受限，也会对扩展能力产生影响，没有办法实现双网卡+raid保护功能。

　　浪潮NF5568M4拥有4U的高度，因此内部有更多的空间和通道用于散热，并且单机设计了多达10个散热风扇，给热空气留一点出路，也就为GPU卡降低一点温度。

　　优化Caffe框架，实现多机多卡GPU集群

　　随着神经网络模型的日趋复杂，模型训练所需要的计算性能也急剧攀升。单机单卡甚至单机多卡的设计已经不能满足部分用户的需求。为此，浪潮发布集群版Caffe-MPI计算框架，实现跨GPU服务器的并行计算。

　　它采用高性能计算行业成熟的MPI技术对Caffe版本进行数据并行的优化，可通过IB网络将多台NF5568M4组成GPU并行计算集群。据实测，由4台NF5568M4组成的16卡GPU集群，性能较单卡提升13倍，节点扩展效率达到90%以上。既发挥4卡机器稳定性、散热等优势，又能实现多机多卡的高性能GPU计算集群，满足客户高强度并行计算需求。

探秘人工智能背后的异构超算服务器

　　新一代Caffe-MPI在4节点下16卡的性能较单卡提升13倍

　　另外，浪潮Caffe-MPI增加了对cuDNN库的支持，利用这款针对深度神经网络的GPU加速数学例程库，开发者可以将其集成到更高级的机器学习框架中，从而加速其深度学习项目和产品的开发工作。

　　浪潮NF5568M4的4U4卡设计更适合当前的数据中心的电力、散热设计，并且可以通过开源的浪潮Caffe-MPI构建多机多卡的GPU计算集群，因此成为目前互联网行业GPU服务器的主流机型。目前，浪潮的深度学习解决方案已经应用在腾讯、阿里、奇虎、科大讯飞、京东等众多互联网公司，正在支持各种不同类型的“超级大脑”为社会提供智能化的服务。

（编辑：ASP站长网）