设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 创业者 手机 数据
当前位置: 首页 > 服务器 > 系统 > 正文

英特尔集成众核(MIC)演示与性能描述(3)

发布时间:2017-01-02 09:32 所属栏目:52 来源:厂商投稿
导读:单节点上实现SGEMM 7.4TFLOP计算性能的演示 在本演示中,我们让SGEMM(单精度普通矩阵乘法)同步运行在安装于Colfax所提供的系统中的8块Knights Ferry卡上。 通过累计系统中每块卡上的SGEMM性能,我们获得了约每秒7.4

  单节点上实现SGEMM 7.4TFLOP计算性能的演示

  在本演示中,我们让SGEMM(单精度普通矩阵乘法)同步运行在安装于Colfax所提供的系统中的8块Knights Ferry卡上。 通过累计系统中每块卡上的SGEMM性能,我们获得了约每秒7.4 TFLOP(每秒万亿次浮点计算)的性能。这对于希望获得高计算密度的用户来说非常有吸引力。它为英特尔® 集成众核(MIC)架构上的浮点计算性能提供了早期测量。我们发现,在没有对PCI-e总线带来任何数据转移开销的情况下,在每块Knights Ferry卡上可测量到925 GFLOP(每秒十亿次浮点计算)的持续SGEMM性能,每块卡具有1200 GFLOP(每秒十亿次浮点计算)的峰值性能。

  系统配置:Colfax* CXT8000*平台:采用两颗英特尔® 至强® X5690处理器(每颗处理器拥有6个内核、12MB三级高速缓存、时钟频率为3.46GHz)、24GB DDR3 1333MHz内存、双英特尔® 5520 IOH芯片、4个PLX* PeX8647第二代PCI-e交换机、RHEL 6.0 操作系统、8块Knights Ferry协处理器卡(D0 Si、1.2GHz、运行带宽为3.6GT/s的2GB容量GDDR5内存)、Alpha 5英特尔® 集成众核软件堆栈与开发工具。

  混合计算——借助英特尔® 数学核心函数库实现SGEMM

  本演示展示了在利用英特尔® 数学核心函数库(MKL)及供英特尔® 集成众核(MIC)架构合作伙伴使用的早期工具版本的情况下,仅需18行代码即可获得1 TFLOP(每秒万亿次浮点计算)的SGEMM性能。英特尔® 数学核心函数库同时利用英特尔® 至强® 处理器和Knights Ferry,共享处理过程并获得惊人的平台级性能。需要关注的一点是,当从仅利用英特尔® 至强® 处理器平台转变为同时利用至强® 处理器和集成众核(MIC)架构时,并不是仅仅需要更改这 18 行代码中的某一行。英特尔® 数学核心函数库对系统中 Knights Ferry的可用性检查工作可根据Knights Ferry的可用性仅利用至强® 处理器平台或同时利用至强® 处理器和集成众核(MIC)架构执行SGEMM。

  系统配置:英特尔Shady Cove软件开发平台(Intel Shady Cove Software Development Platform):采用两颗英特尔® 至强® X5680处理器(每颗处理器拥有6个内核、12MB三级高速缓存、时钟频率为3.33GHz)、24GB DDR3 1333MHz内存、单颗英特尔® 5520 IOH芯片、RHEL 6.0操作系统、1块Knights Ferry协处理器卡(D0 Si、1.2GHz、运行带宽为3.6GT/s的2GB容量GDDR5内存)、Alpha 5英特尔® 集成众核软件堆栈与开发工具。

  混合计算——LU 分解

  这是一个与英特尔在国际超级计算大会上发布的技术论文“针对多核及众核设计及动态负载均衡的混合LU”(Designing and Dynamically Load Balancing Hybrid LU for Multi/Many-core)有关的演示。去年,我们展示了借助早期软件堆栈版本,在LU分解过程中的运算性能可超过500 GFLOP(每秒十亿次浮点计算)的Knight Ferry应用开发平台。在现在的演示中,我们充分利用了跨越英特尔® 至强® 处理器和英特尔® 集成众核(MIC)架构的通用编程模型,同时利用Knights Ferry和至强® 处理器在LU分解过程中提供高性能——我们测量到多达772 GFLOP(每秒十亿次浮点计算)的持续性能。通用编程模型有助于我们在英特尔® 至强® 处理器上动态处理尺寸较小的矩阵,在英特尔® 集成众核(MIC)上处理尺寸较大的矩阵,从而获得最佳的整体性能。

  系统配置:英特尔Shady Cove软件开发平台(Intel Shady Cove Software Development Platform):采用两颗英特尔® 至强® X5680处理器(每颗处理器拥有6个内核、12MB三级高速缓存、时钟频率为3.33GHz)、24GB DDR3 1333MHz内存、单颗英特尔® 5520 IOH芯片、RHEL 6.0操作系统、1块Knights Ferry协处理器卡(D0 Si、1.2GHz、运行带宽为3.6GT/s的2GB容量GDDR5内存)、Alpha 5英特尔® 集成众核软件堆栈与开发工具。

  关于CERN

  CERN(欧洲原子能研究机构)是世界上最大的粒子物理研究实验室,总部位于日内瓦。 目前CERN的成员国包括:奥地利、比利时、保加利亚、捷克共和国、丹麦、芬兰、法国、德国、希腊、匈牙利、意大利、荷兰、挪威、波兰、葡萄牙、斯洛伐克、西班牙、瑞典、瑞士和英国,罗马尼亚为其后候成员国。印度、以色列、日本、俄罗斯、美国、土耳其、欧洲委员会和联合国教科文组织(UNESCO)具有观察员身份。如欲了解有关CERN 的更多信息,请访问:http://press.web.cern.ch/press。

  关于FZ Jülich

  FZ Jülich(尤利西研究中心,Jülich Research Center)是欧洲最大的研究中心之一。它致力于尖端的跨学科研究,旨在解决健康、能源、环境及信息技术领域的巨大社会挑战。该中心在物理及超级计算方面具有卓越的关键能力。如欲了解有关FZ Jülich的更多信息,请访问:http://www.fz-juelich.de。

  关于KISTI

  KISTI(韩国科学技术信息研究所)是韩国领先的研究机构,致力于通过利用高性能研究网络与高性能计算机来构建提供知识和信息的国家级基础设施。KISTI超级计算中心是韩国最大的高性能计算与高性能网络提供商。如欲了解有关KISTI的更多信息,请访问:www.ksc.re.kr/eng/。

  关于LRZ

  LRZ(莱布尼茨超级计算中心,Leibniz-Rechenzentrum)是慕尼黑Ludwig-Maximilians大学、慕尼黑科技大学(Technical University of Münich)以及巴伐利亚科学研究院(Bavarian Academy of Sciences)的统一计算中心。LRZ运营支持所有巴伐利亚大学和联邦高性能计算机的高性能计算系统,并为德国所有大学的科学研究工作提供系统支持。如欲了解有关LRZ的更多信息,请访问:http://www.lrz.de。

  关于英特尔

  英特尔(纳斯达克:INTC)是计算创新领域的全球领先厂商。英特尔设计和构建关键技术,为全球的计算设备奠定基础。了解有关英特尔的更多信息,请访问:www.intel.com/c新闻发布室及http://blogs.intel.com/china。

上一页123下一页查看全文 内容导航
  • 第1页:2011年国际超级计算大会(ISC)上的演示
  • 第2页:KISTI的分子动力学演示
  • 第3页:单节点上SGEMM 7.4TFLOP计算性能的演示

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读