英特尔集成众核（MIC）演示与性能描述(2)

发布时间：2017-01-02 09:32 所属栏目：52 来源：厂商投稿

导读：KISTI的分子动力学演示该应用利用经验势(Empirical-potential)分子动力学，模仿分子之间的互动并模拟纳米材料，如碳纳米管、石墨烯、富勒烯(FULLERENE)和硅表面。该应用在采用OpenMP的多核处理器系统上启动，由于

　　KISTI的分子动力学演示

　　该应用利用经验势(Empirical-potential)分子动力学，模仿分子之间的互动并模拟纳米材料，如碳纳米管、石墨烯、富勒烯(FULLERENE)和硅表面。该应用在采用OpenMP的多核处理器系统上启动，由于它能对标准语言和编程模型提供强大支持，因此经过轻松扩展，便可在短短几小时内充分利用基于英特尔® 集成众核(MIC)架构的协处理器。

　　与采用GPU相比，英特尔® 至强® 处理器和Knights Ferry软件开发平台的通用标准化并行编程模型，以及简单但功能强大的卸载编程模型展现出了更高的工作效率，让模拟具有高度并行性，可最大程度降低数据依赖性，并可采用标准化多线程编程模型(如OpenMP和英特尔® Cilk™ Plus)进行良好的并行化处理。该应用表明，随着英特尔® 至强® 处理器和Knights Ferry在内核数量上的增加，性能增强幅度也呈现出了接近理论的线性趋势。借助C语言中的内在函数，该应用充分利用了Knights Ferry中的512位宽矢量处理单元。

　　KISTI超级计算中心异构计算团队负责人Hongsuk Yi博士的报告称：“通过在基于英特尔® 至强® 处理器和英特尔® 集成众核(MIC)架构的平台上利用标准化编程，应用性能达到了我们对多线程可扩展性的预期，并且我们还观察到随线程数量增加的接近理论的线性化性能增强现象。”

　　系统配置：戴尔*Precision*工作站：配备1颗英特尔® 至强® X5620处理器(拥有4个内核、12MB三级高速缓存、时钟频率为2.40GHz)、24GB DDR3 1333MHz 内存、单颗英特尔® 5520 IOH芯片、RHEL 6.0操作系统、1块Knights Ferry协处理器卡(C0 Si、1.2GHz、运行带宽为3.0GT/s的2GB容量GDDR5内存)。

　　LRZ：TifaMMy 矩阵乘法演示

　　本演示介绍了一种递归方法，它利用矩阵到矩阵乘法的高速缓存参数无关算法来分割输入的数据，支持计算和并行化处理。

　　TifaMMy 是一种矩阵到矩阵乘法的高速缓存参数无关算法，采用空间填充Peano曲线并提供直观的C++应用程序接口。它利用递归方法分割输入的数据，支持计算和并行化。由于采用递归方法，因此这种方法对于CPU处理非常有效，无需将应用移植到GPU 上处理。借助英特尔® 集成众核(MIC)架构协处理器上类似CPU的编程模型，LRZ能够使该应用在短短几小时内就转而运行于Knights Ferry之上，并且经过一些优化，其应用性能就超过了650 GFLOP(每秒十亿次浮点计算)。

　　该程序采用使用OpenMP的C++编写而成，并借助C++内在函数充分利用了512位宽矢量处理单元。对于该算法，650 GFLOP(每秒十亿次浮点计算)的性能已近乎最佳(比协处理器卡理论性能峰值的一半稍高)。随着工具的成熟，它还将有一些性能提升的机会。

　　最重要的是，采用使用成熟的自调节递归算法的C++应用，将为代码的“性能可移植性”带来重大的意义。此类算法不需要随高速缓存大小和内存层级变化进行手动调节，即使迁移至英特尔® 集成众核(MIC)架构也不需要进行这种调节。借助标准化编程方法轻松利用基于英特尔® 集成众核(MIC)架构的协处理器，这些自调节方法可应用于其它重要的算法，包括PDE求解器。除矩阵乘法外，这些自调节方法还适用于稠密与稀疏矩阵，这有助于展现英特尔® 集成众核(MIC)架构蕴含的巨大潜能及其支持多种编程方法的功能，如已采用的递归方法。

　　系统配置：英特尔Shady Cove软件开发平台(Intel Shady Cove Software Development Platform)：采用两颗英特尔® 至强® X5690处理器(每颗处理器拥有6个内核、12MB三级高速缓存、时钟频率为3.46GHz)、24GB DDR3 1333MHz内存、单颗英特尔® 5520 IOH芯片、RHEL 6.0 操作系统、1块Knights Ferry协处理器卡(C0 Si、1.2GHz、运行带宽为3.0GT/s的2GB容量GDDR5内存)、Alpha 5英特尔® 集成众核软件堆栈与开发工具。

　　CERN openlab：英特尔® 集成众核(MIC)架构的内核扩展演示

　　CERN 演示的是从对撞机试验的CBM/ALICE HLT软件开发中提取出的核心。它基于不精确的测量对实际轨道进行了估算。

　　通过不精确的测量，这个用于对撞机试验的应用核心基准测试对实际轨道进行了估算。当在线重现整个事件执行过程时，非常重要的一点是选择将从探测器发送至计算机中心的最重要事件。CERN借助英特尔® 集成众核(MIC)架构在该核心上测试可扩展性，并了解当代码经过良好并行化和矢量化处理时，英特尔® 集成众核(MIC)架构可随内核数量增加实现线性化的性能增强。该演示提供了一幅测量到的性能与用于计算的内核数量的关系图。CERN发现，性能呈线性趋势增强，直到Knights Ferry上的内核达到32颗，这无疑是一个好消息，它有助于英特尔实现Knights Corner中添加更多内核的计划。

　　该应用在多核处理器系统上启动，并且由于它可对标准语言和编程模型提供强大支持，因此可经过轻松扩展，充分利用基于英特尔® 集成众核(MIC)架构的协处理器。

　　系统配置：SGI* H4002*平台：采用两颗英特尔® 至强® X5690处理器(每颗处理器具备6个内核、12MB三级高速缓存、时钟频率为3.46GHz)、24GB DDR3 1333MHz内存、RHEL 6.0 操作系统、1块Knights Ferry协处理器卡(C0 Si、1.2GHz、运行带宽为3.0GT/s的2GB容量GDDR5内存)。

第1页：2011年国际超级计算大会(ISC)上的演示
第2页：KISTI的分子动力学演示

第3页：单节点上SGEMM 7.4TFLOP计算性能的演示

（编辑：ASP站长网）