Mellanox：Infiniband成为HPC最佳网络

发布时间：2017-01-02 10:16 所属栏目：52 来源：刘策

导读：在高性能计算领域，曙光成为国内领军厂商，不断推动超级计算机技术的发展，从专业人才培养到推广高性能计算应用，2013年9月24日-27日，在中国计算机学会高性能计算专业委员会和中国高性能计算机标准工作委员会的共同指导下，由曙光公司主办，中国科学院计算机

　　【资讯】在高性能计算领域，曙光成为国内领军厂商，不断推动超级计算机技术的发展，从专业人才培养到推广高性能计算应用，2013年9月24日-27日，在中国计算机学会高性能计算专业委员会和中国高性能计算机标准工作委员会的共同指导下，由曙光公司主办，中国科学院计算机网络信息中心超级计算中心协办的第二届曙光超算技术大会(SSC13)在北京拉开帷幕。Mellanox公司亚太技术开发总监刘通先生现场致辞。

Mellanox：Infiniband成为HPC最佳网络
Mellanox公司亚太技术开发总监刘通先生

　　刘通：非常感谢，这是我第二年参加曙光的超算大会，感触很多。从第一年我们首先提出来做应用为主题的超算大会，今年的主题是深植应用。我希望在超算领域，我们所有的厂商和研究机构能够沟通努力，在深植应用方面做出重大的贡献。

　　今天上午王总也讲过，我们的排名到底有多少利益?在重复探讨这个问题。可能每个人的看法是不一样的。在排名上面，自然有他的意义。我们不能盲目的追求名词，但是我们也不能忽略名词的意义。他可能会驱动很多科技的创新，来争取突破。所以是有它的意义的。

　　回顾一下Mellanox与曙光公司发展的历程，我们都是从做高性能计算起家，在10年以前成立，我们是合作非常紧密的公司。昨天我查询了一下曙光公司的产品，有很多的产品都有Mellanox网络的支持。包括刀片机机架式服务器，个人超算、图形超算，到存储还有我们的星云超算，这里面举了个别的例子，实际上有很多的系统都也NVIDIA的Infiniband作为互联，我们是非常紧密的合作伙伴。

　　再看一下Mellanox的发展历程，我们是一家网络公司。Mellanox公司一直是以技术为主导做芯片的公司。所以从2002年的开始，我们有了第一款Infiniband的产品。这里面因为空间有限，我只从2008年开始列，从10年以前我们就有了Infiniband的产品，每隔两三年就有新产品问世。在新产品问世的时候，不仅在速度上做提升，也在产品线的纵深和宽度上做延展。

　　2008年我们有QEL的产品，随着到后来我们开始，甚至有了自己的网线，和不同型号的交换机产品。在整个网络的端到端的系统里面，我们是提供了完整的解决方案。到2010年，我们开始在应用领域贡献更多的力量。从一开始我们只提供高速硬件，由你开发自己的软件，使用我们的硬件，到后来我们发现必须要合资开发软件，才能使应用程序真正的利用到我们的页面。我们公司从2011年开始，针对不同的应用领域，开始编写了一些加速的软件。这里面涉及到高性能计算，大数据、云计算很多的领域。这些软件在后面我都会触及到。

　　2013年我要介绍的产品是做百亿次计算，我们做了自己的产品，这是世界上最快的Infiniband产品。下面有一些包括跟GPU合作产品。我们是一家多网融合的公司，大家可能知道我们是做Infiniband，但是我们也是做以太网的公司，而且也是业绩做的最快的以太网的公司。

　　我们现在的网络是多网融合，所以它的身份是可以灵活变换的。如果你买了最近的交换机或者网卡，它可以自适应，变化Infiniband。我们还有网络间接等等。

　　有很多厂商和机构在使用我们的TOP500，我们要仔细的剖析数字后面代表什么?很有可能我告诉你的数字是一个市场的信息，未必是你最需要的信息，或者是会产生一定的误导。但是我们作为高性能计算里面踏实的做技术的工作，我们会很实际的分析里面的数据。这里面有一些数字，Infiniband是TOP400里面使用最多的网络。然后是FDRInfiniband，最新的是FDR，FDR从过去的一年当中，20套系统，到今年的千万系统增长了两倍。FDR被业界使用率很高。

　　除了高性能计算，也有其他的平台开始到TOP500里面排名，大家要冷静仔细的考察原因，因为里面有很多的系统不是HPC的。你在排名的时候，真正了解HPC用什么网络?其他的可能是用来做各种各样的服务型的，不是单纯的计算。如果我们单独看计算，Infiniband使用率最高，占绝对的地位。同时Infiniband连接了世界上最快的4台Infiniband系统。

　　除了高性能计算，Infiniband还向其他的领域延伸。因为我们高性能计算，所给大家创造出来的极优化的架构，是适应于所有的应用领域。所以我们在云计算的平台里面开始大规模的进入这个市场。百亿次计算是需要艰苦的努力的过程，是需要坚实的技术积累才能达到，需要众多的友商合作做异构计算。但是网络需要实现高速的计算互联，这里面列了一些千万亿次的系统，包括曙光星云的系统。

　　FDR，实际上用技术词语表示是十四的意思，我们解释为更快的提供你所要的结果，这就是把核心放在你的应用，放在你的投资回报率上，我们不是简单的给你一个在带宽、延迟上的硬件系统，希望是给应用直接起到加速的效果，所以是一个提供更高性能的一个正确选择的网络。

　　既然我们加速应用，我们也可以看一下加速的案例。首先是open FOAM，我们做了不同的网络的对比，从千兆、万兆，做了一个非常直接的对比，可以看到性能上的优越性。。它不仅仅是保持一个固定的优势，它随着节点的增加，我们的优势是不断的扩大的。高速网络对你整个系统的投资回报率使用率影响巨大。

　　我们在采购系统的时候，在考虑如何充分的发挥你系统的使用效率，就要考虑到使用最优异的网络。Infiniband上，FDR Infiniband是绝对领先的。这个千兆以太网是完全没有办法在集群系统里面应用。如果大家做高性能了计算会有亲身的经历。绝大多数的应用，都需要高带宽和低延迟的网络，我们在考虑网络的时候，千兆以太网是被淘汰的。而且是随着系统规模的不断增加，我们领先的差距是不断的拉大的。所以Infiniband对分子动力学软件，一样可以体现出优异的性能优势。

　　上面的应用例子，告诉大家我们在考虑深植应用这个主题的时候，需要考虑很多的事情，需要考虑你的软件怎么开发的更优异，同样针对于网络通讯，也需要考虑。这里面会有很多的技术，现在我在高校里面也在推动在网络编程上面的一些改进。我们就是想让编写应用的程序人员，意识到在网络通讯方面需要采用全新的编程方式，才能发挥网络的优越性。

　　一开始介绍了connect —IB的网卡，我们这款芯片是全新的芯片，为的是我们做100G网卡做准备，同时在这款芯片上面做了很多针对与HPC应用加速的特性。这里面包括消息传输率的提升，相当于1.37亿条每秒，这是非常惊人的。

　　如果谈到百亿次计算，就会涉及到上百万的CPU核心计算的规模，消息传输率是影响可扩展性的至关重要的因素。我们需要做一些联合开发的工作，做GPU联合通讯。

　　除了在上面讲的几个优势之外，也有自己的开发和改进，更好的提高它的可扩展性和考虑。针对MPI，我们有几款免费加速器，开源代码。MPI也有它自己很多的瓶颈，因为它发展的时间太长，所以它从历史上遗留下来的问题很多，如何改变它瓶颈的问题，我们只关注做好自己的硬件，很难让软件发挥优势。我们要回过头看自己的瓶颈，去改变MPI的通讯方式。我们改变了两个部件，针对MPI里面最主流的点对点的通讯和集成通讯做改进。这里面起了两个名字，我们的网卡可以做集成通讯，在最新的网卡上面加的功能。用来做更多的计算。

　　谈到这些集群卸载，会触及到更为深层的对网络的理解，对MPI的理解。很多人说你做集群卸载，可能意义不太大，我集成完了才计算。虽然它本身是一个并行程序，但是它里面处理的方式是穿行的方式。现在有最新的MPI的方式，让他们做协同的通讯计算。这种方式会大大的加速MPI程序的性能。最新的MPI里面已经有了这种模式，大家可以下载最新的，都是支持的。

　　SHMEM和PGAS也是一种方式，我们有自己的软件，来进行加速。大家如果想探讨这几个话题，我们可以做一个交流。做类似于小型机式集群式的计算。

　　我们来看一些实际的测试结果。加速集成通讯和点对点通讯，不仅是口头上的指标，如果能反映到实际的应用程序，才是有意义的。从延迟和带宽上面大家可以看到，在使用了加速器以后，我们的通讯延迟是一个水平的状态，不管你的通讯的进程数有多少，我们所耗费的通讯的时间是固定的，保持一个很低的水平。如果没有加速器，你用了MPI进程越多，在通讯上耗费的时间越长。

　　你的应用程序里面，通讯所占用的比率，如果没有加速器，会逐渐的增加。95%的时间是用来做通讯，即使你用的是Infiniband，都有这种情况出现。所以我们必须要有加速器，降低你通讯的延迟。尤其是通讯量进程比较多的情况下，我们把它卸载到我们的网卡上，这种方式是实现可扩展性的唯一方式。这三个指标都可以看到，延迟接近水平。坚持这个理念，希望和做应用的人保持一个非常近的距离，做一个近距离的交流，而不是只提供硬件。

　　今天给大家带来一个新的东西，就是ARM平台。我们计算密集型的，需要计算密集型的CPU来满足我们的需求，可能ARM有一定的距离，但它是不可回避的方向。ARM平台和CPU、GPU的平台概念是类似的，一样会涉及到高的网络通讯，一定要解决通讯的问题。我们和ARM合作，做了世界首款ARM和Infiniband的通讯。现在很快就会有真正的服务器厂商开始销售基于ARM的服务器平台，这应该是很快的。这个平台上面，我们做到的工作就是ARM可以通过Infiniband的网卡、交换机直接实现互通，这是一个非常重要的贡献。用来降低ARM与ARM之间的延时。在云计算和高性能计算界限越来越模糊的情况下，ARM有可能会找到它的立足之地。Infiniband会自然而然的融入到ARM的平台里面来，走进高性能计算领域。

　　GPU direct，今年重新起了一个名字，来实现GPU与GPU之间的直接通讯，没有通过CPU和系统的内存。但是在最早的一期，我们是通过系统的内存，但是我们减少了一个系统内存拷贝的环节。我们还是要走一个系统内存的环节。在最新的GPU上面，我们完全的隔离的系统的CPU，直接实现GPU之间通过Infiniband的通讯计算。

　　到最近2013年的下半年，我们准备发布GPU direct RDMA。我们1.0做到有一个拷贝的环节，需要GPU拷贝到系统的内存，再拷到Infiniband的内存，再从系统的Infiniband内存里面，拷到对方服务器的内存。

　　在最近的GPU direct RDMA，我们是实现了GPU与GPU之间的完全互通，GPU远程内存的直接访问。这个会在应用上面直接带来一个性能的提升。我们在做性能测试的时候，有一个结果。在做延迟和带宽两项测试的情况下，都分别有一个巨大的提升。在带宽上面我们增加了三倍。如果你在做计算的时候，你会可以直接看到非常明显的性能的提升。而且我们这些软件都是免费的。

　　协同的工作是非常重要的，仅仅网络一家来做网络产品，很难把你的整个应用的性能发挥到极致。我们和GPU合作开发了GPU direct RDMA，是为了更好的发挥GPU 应用的性能。我也鼓励大家使用，给我们反馈意见。

　　有一个实际应用的案例，在MVAPICH2上进行了测试，我们实际应用的提升，在不同的规模上，性能的提升可能略有差异，但是没有GPU direct RDMA的情况下，还是非常明显的。你可以直接增加应用的性能。

　　还有一款新的设备，叫METROX，今年我们把Infiniband概念延伸出去，做成远端的Infiniband互联。以前有其他的公司做远程的Infiniband互联，在美国Infiniband的远程互联被广泛的应用。它可以跨洲、跨国实现远端的互联。我们Mellanox公司自己出了一款Infiniband远程设备。现在只能实现100公里的距离，我们的友商可以做到Infiniband跨国互联。我们这个100公里的互联是什么目的?我们在和实际的用户交流过程发现，在多中心之间互联的需求，可能你的高校在五年以前建了一个HPC，今天又想建，他们可能不在一个大楼里面，你们希望把这两个系统能够组成一个单一的Infiniband超级计算机集群，这个设备是一个很好的选择。

　　我们有不同的型号，根据不同的距离，可以有不同的选择。实现40GBInfiniband互联，今年我们是40GB，将来会出56GB，甚至是更快的。我们Infiniband也是支持以太网的互联。在今天的两地三中心的概念，或者是同城多数据中心的概念，如果要实现高速的以太网，METROX是非常好的设备，可以以非常低廉的价格，实现多站点统一的管理。而且我们实现了Infiniband互联以后，会支持RDMA。

　　这是一个案例，给大家讲一下它大概应用在什么杨的场景?现在有客户使用我们这款设备做摘备中心。在企业里面我们需要用摘备，希望它的之间实现高速互联，做一个快速的数据备份，我们可以很轻松的实现这个目标。

　　网络需要高速，同时需要可用性和容易使用性，这是我们经常提到的问题。我们的网络要非常的容易管理，我们有UFM的管理软件，这种管理软件我们尝试用不同的方式提供给你管理软件，原来是给你一个软件装在管理服务快上，linux服务器管理你的系统。

　　现在出了一个一体机，是一个黑盒子，只要把这个黑盒子插在HPC上面，你就可以管理整个的。所以有两种形式，软件或者是软件一体机结合的形式来管理你的网络，起到一个很好的监控、报警、管理、升级的功能。

　　Mellanox除了高性能计算，我们也走向了云计算和大数据。为什么这些领域也是我们的市场?因为道理很简单，云计算与大数据，都涉及到它的系统架构用并行的方式，和高性能计算非常类似，它是一种并行的架构，离不开网络互联。现在云计算和大数据处理的压力越来越大，数据量增长的速度非常快。如果我们看IDC的数据分析，从2013年到2017年还是2018年，会有三四倍的增长，这可能是一个保守的数字，或者是全球的数字，放在中国可能速度增长更快。如果有这么快的数据增长速度，不管是放在云计算、高性能计算平台、还是大数据平台里面，都有一个非常简单的问题带给你，你怎么处理这些数据，怎么样提取数据、存储数据、分析数据，所有的数据都离不开网络。

　　所以我们很自然的走入云计算和大数据，这些新兴的并行的系统环境里面去。我们加速hadoop，加速甲骨文数据库，大家可能知道甲骨文在数据库集群里面全部采用的是我们的Infiniband，他的云计算平台也是用的我们的Infiniband。

　　我们现在用在金融交易的平台里面，保证纳斯达克、香港政权交易所，都在用Infiniband做他的网络互联。只要涉及到高性能数据，网络都是很自然的构件。

　　实际上这是我们自己为自己设置的一个障碍，Infiniband做云计算，会带来更高的投资回报率和易用性。它是一个非常好的云计算的环境的选择。

　　一开始我讲过甲骨文数据库用我们的Infiniband，在最近的甲骨文大会上面，又反复的重复，在他的大数据里面绝对的采用Infiniband，Mellanox的Infiniband，是因为我们Infiniband提供给他数据库无以伦比的网络降低他的功耗。同时IBM SDB2，微软SQL，都在是我们的数据库。

　　(36)，尤其在企业环境，你可以使用我们的以太网，但是在以太网上面，你可以进入很多Infiniband的特性。IBM用我们的Infiniband，也用我们的以太网。TCP本身有巨大的瓶颈，如果你停留在TCP上面做应用程序，等于浪费了你的网络，这是不容置疑的。

　　在Hadoop上面做了一个软件的改进，我们可以看到这个性能在翻倍的提升，在你们做大数据的研究，或者是从事大数据相关的工作，可以考虑用RMDA替代你的方式。所以一定要看到你的瓶颈到底在什么地方?我们需要合作开发。最后给大家讲一下，我们未来的愿景，实现100GB每秒，需要我们不断的努力，100G的网络不是那么容易做的。虽然我们经常会说，有人听到100G的网络做出来了，那是一个误解，如果真正的实现100G秒每的网络，我们只能从服务器单芯片、单交口出现。这是有挑战性的。

（编辑：ASP站长网）