设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 创业者 手机 数据
当前位置: 首页 > 服务器 > 系统 > 正文

白皮书:45纳米下一代英特尔酷睿微体系结构

发布时间:2017-01-02 08:49 所属栏目:52 来源:IT168
导读:2007 年下半年,英特尔将开始投产代号为“Penryn”的下一代英特尔酷睿2 处理器家族产品。

一、全新的创新和增强特性带来更卓越的性能和能效

  2007 年下半年,英特尔将开始投产代号为“Penryn”的下一代英特尔酷睿2 处理器家族产品。Penryn 处理器家族基于英特尔业界领先的 45 纳米(nm)高 K 金属栅极硅制程技术和最新的英特尔酷睿微体系结构增强特性构建而成。英特尔酷睿微体系结构在英特尔早前大获成功的革命性微体系结构(当前英特尔至强处理器家族和英特尔酷睿2 处理器家族所用)基础之上,又进行了重大改进,这标志着英特尔在每年推出一种新制程技术及增强型微体系结构或全新微体系结构的道路上又迈出了重大一步。

  45 纳米 Penryn 家族中的双核处理器拥有 4 亿多个晶体管,四核处理器拥有 8 亿多个晶体管。借助全新微体系结构特性,该处理器家族产品还可在频率不变的情况下实现更高的性能,同时增大 50% 的二级高速缓存,以及扩展的电源管理能力可让能效表现再上新台阶。Penryn 家族还采用了近 50 条全新的英特尔SSE4 指令,可进一步加快媒体应用和高性能计算应用的运行速度。

    Penryn 家族将包括全新双核台式机处理器、四核台式机处理器、四核服务器处理器和双核移动式处理器。

二、英特尔酷睿微体系结构

    2006 年,英特尔首次在采用 65 纳米硅制程技术的英特尔酷睿2 微体系结构处理器中引入了英特尔酷睿微体系结构。作为第一代多核优化型微体系结构,它扩展了英特尔奔腾M处理器的移动式微体系结构中首次提出的能效理念,并利用诸多全新的领先微体系结构创新特性对其进行了增强,由此实现了业界领先的性能、更高的能效表现和更快的多任务处理响应能力。

    英特尔酷睿微体系结构创新特性包括:

  * 英特尔宽位动态执行

  * 英特尔智能功效管理

  * 英特尔高级智能高速缓存

  * 英特尔智能内存访问

  * 英特尔高级数字媒体增强

  基于英特尔酷睿微体系结构的处理器在多项业界领先的性能指标评测中,均打破了台式机平台、移动平台和主流服务器平台的性能纪录。(请访问www.intel.com/performance)例如,65 纳米四核英特尔至强处理器可提供相当于上一代服务器解决方案 2.5x 的性能。在台式机方面,基于英特尔酷睿2 双核处理器的系统能够以更低的功耗提供高40% 的性能。在移动平台方面,基于英特尔酷睿2双核移动式处理器的笔记本电脑可提供两倍的多任务处理性能,以及更高的能效和更耐久的电池使用时间。

三、英特尔的45纳米高 K 金属栅极制程技术

  2007 年 1 月,英特尔采用了截然不同的晶体管材料(一种由高 K 栅极电介质和导体组成的新材料)来构建下一代英特尔(R) 酷睿(TM)2 处理器家族内部亿万个微型 45 纳米晶体管,此项技术的推出堪称40年来晶体管设计领域一项最重大的改进。这种突破性的晶体管技术不仅能帮助英特尔减少影响芯片和 PC设计、尺寸、功耗及成本的晶体管漏电流,而且还能助其连续刷新 PC、笔记本电脑和服务器处理器的性能纪录。通过提高晶体管切换速度,这项突破性技术还能实现更高的内核和总线时钟频率,从而在功耗和发热量不变的情况下提升性能。反过来,这又使得摩尔定律得以(高科技行业定律:晶体管数量每两年就会增加一倍,由此可在成本潜在降低的同时提供更多性能)在未来十年内继续发挥效力。

  与 65 纳米技术相比,英特尔 45 纳米高 K 硅制程技术可提供以下产品优势:

  * 晶体管密度提升近一倍(支持更小的芯片尺寸或更多的晶体管数量)

  * 晶体管切换功耗降低近 30%

  * 晶体管切换速度提高 20% 以上,源极漏极漏电率降低5 倍以上

  * 晶体管栅极氧化层漏电率降低 10 倍以上,从而实现更低的功耗和更耐久的电池使用时间

  2007 年 1 月,英特尔展示了全世界第一款 45 纳米高 K 处理器,从而有力地证明了自己的制程技术比半导体行业其他厂商领先一年以上。英特尔联合创始人戈登·摩尔表示:“高 K 和金属栅极材料的使用,标志着自 20 世纪60 年代末多晶硅栅极 MOS 晶体管推出以来,晶体管技术领域最重大的变革。”

四、Penryn — 下一代英特尔酷睿2 处理器

  作为首个基于英特尔全新 45 纳米高 K 硅制程技术的处理器家族,Penryn 充分利用了45 纳米技术在芯片中新增加的晶体管。这一 45 纳米高 K 下一代英特尔酷睿2 和英特尔至强处理器家族可提供大量全新的架构特性和进步,从而提升软件运行速度,改进能效表现。

(一)提升软件运行速度

  Penryn 家族的诸多微体系结构改进,可提高多种软件的性能。

   全新英特尔SSE4 指令

  Penryn 家族包含英特尔SIMD 流指令扩展 4(SSE4)指令。英特尔SSE4 指令是自 2001 年以来最重大的媒体指令集架构改进。这一全新的指令集进一步扩展了 Intel64 架构指令集架构的特性,可更好地利用英特尔下一代 45 纳米硅制程技术,扩展英特尔架构的性能和能力。英特尔SSE4 指令进一步拉开了与SIMD(单指令多数据)软件的性能差距,并支持 Penryn 微处理器为多种 32 位及 64 位软件提供更卓越的性能和能效。此外,图形、视频编码和处理、3D 成像和游戏等应用也可从中受益。该指令还将有助于音频、图像和数据压缩算法等多种高性能应用的运行。

   Penryn 家族所采用的英特尔SSE4 可通过以下方式提升性能:

  * 增加对两个不同向量的 32 位整数乘法操作的支持

  * 引入 8 位无符号的最小/最大操作 16 位和 32 位有符号和无符号的版本

  * 引入诸多特性,以有效地改进编译器对整数和单精度代码进行向量化的能力

  – 混合(Blend)、测试与变数(Test and Round)和符号零扩展(sign/zero extension)可直接取代现有的冗长操作(lengthy operation)

  – 插入(Insert)和提取(Extract)是收集(gather)(探查,lookup)、分散(scatter)、跨距加载(strided load)和跨距存储(stride store)的构建模块

  * 添加高度专用的操作,从而带来显著的应用级增益:

  – 视频编码加速功能

  – 浮点点积操作(对于游戏和 3D 内容创建非常重要)

  – 流加载指令(对于视频处理、成像,以及在图形处理器和处理器之间共享数据的应用非常重要)

  英特尔SSE4 指令能够带来非常显著的性能增益。例如,流加载指令可提高从图形帧缓冲区中读取数据的带宽。通过获取完整的高速缓存行(每次 64 字节而不是 8 字节,并可将其保存在临时缓冲区),该指令还可实现理论上高达 8 倍的读取带宽改进。

   增强的大型英特尔高级智能高速缓存

  Penryn 处理器采用增大 50% 的大型二级高速缓存并搭配24路组联(24-way associativity)设计,可进一步提高命中率并最大限度提升使用率。其中,双核 Penryn 处理器将采用高达 6 MB 的二级高速缓存,而四核处理器的二级高速缓存则将高达 12 MB。大型高速缓存可以提高每个执行内核从性能更高、更有效的高速缓存子系统中访问数据的几率,从而有助于改进性能和效率。

  Penryn 家族的高速缓存还具备增强型高速缓存线路分离加载(enhanced cache line split loads)功能。当读取数据值并且数据的各部分位于不同的高速缓存线路时,分离加载(split load)功能即会启动。即使数据没有完全对齐,从单一的高速缓存线路中读取数据也比从两个高速缓存线路中读取数据快数倍。Penryn 家族的增强型高速缓存线路分离加载功通过先于其它加载(load)或存储(store),来推测性地分配分离加载的两部分,极大地提高了性能。这样也可加速执行数据扫描的特定应用的性能,如视频动作估算等。

  速度更快的内核与系统接口

  Penryn 处理器家族的内核速度(某些版本达3 GHz以上)将超过上一代英特尔酷睿2 处理器家族。此外,与当前的1066 GHz 和 1333 GHz 相比,它的前端总线速度将提升至1600 GHz。这将显著改进系统的整体性能。

  增强型英特尔虚拟化技术

  Penryn 可使虚拟机迁移(登入/登出)速度平均提高25-75%。而这一优势仅通过改进微体系结构即可完全实现,无需再修改虚拟机软件。(通过利用虚拟化技术对计算机实行分区,系统将可以在每个分区中运行不同的操作系统和软件,这样便能更充分地利用多核处理性能,提高效率。并且,由于单个机器还可作为多个虚拟计算机运行,所以此技术还有助于削减成本。)

  超级洗牌并行执行引擎(Super Shuffle Engine)

  通过实施全宽、单通道、128 位的 shuffle 单元,Penryn 处理器能够在单个周期内执行全宽shuffle。这样就可以将大多数字节、字或 dword SSE 数据 shuffle 操作的运行速度提升一倍,并可显著降低具有打包(pack)、拆包(unpack)以及更宽打包移位(wider packed shift)等 shuffle 操作的SSE2、SSE3 和英特尔 SSE4 指令的延迟与吞吐量。因此,这项功能将有助于一系列 SSE 算法的总体性能改进。

   快速 Radix-16 除法器(Fast Radix-16 Divider)

  Penryn 处理器可提供更快捷的除法性能。相比上一代产品,该处理器在科学计算、3D 变换和其它数学密集型函数方面的除法器运行速度提升了约一倍。全新快速除法技术 — radix 16的采用,加快了浮点操作和整数操作的分离。(radix 4 算法在每次迭代中可计算 2 位的商)。提升至 radix 16 算法后,可在每次迭代中计算 4 位的商,从而使延迟降低了 2 倍。)

  存储转发(Store Forwarding)

  为提升同一个管道中跨 8 字节地址边界的“不对齐”存储结果的读取速度,Penryn 处理器可以将存储结果立即转发给“加载(sotre)”,而不必等待存储完成和写入内存的操作。

   提升操作系统(OS)同步原语性能(Synchronization Primitive Performance)

  当代码开始进入临界区,并需要独 I/O 设备等资源时,某些操作系统可临时阻断或“屏蔽”中断。通过更快的“清除中断/设置中断” (CLI/STI,clear Interrupt/set Interrupt)功能,Penryn 处理器可以更快地进入/离开这一模式,从而显著提升性能。此外,它还能够更快地执行“锁定”(locked)指令(如 XCHG、ADD/ XADD/NEG/BTS/AND 和 CMPXCHG)。Penryn处理器亦可支持迅速地访问时间标记计数器(读取时间计数器或 RDTSC),以便满足基于数据库或交易处理的服务器工作负载对于此项函数的频繁调用需求。

(二)提高能效

  除去英特尔 45 纳米高 K 硅制程技术和英特尔酷睿微体系结构的节能特性外,Penryn 家族还采用了另外两项重要的新特性:深度节能技术(Deep Power Down Technology)和英特尔动态加速技术。

      深度节能技术(Deep Power Down Technology)

       这是一项全新的高级电源管理状态(C 状态),它可显著降低闲置期间的处理器功耗,并且消除内部晶体管的漏电流对功耗的影响。这项最新的处理器“睡眠”状态是处理器所能达到的最低功耗状态,能够极大地延长笔记本电脑的电池使用时间。它可使 Penryn 实现比 Merom(面向移动平台的上一代英特尔酷睿微体系结构)最低功节省。

  在进入深度节能状态后, Penryn 处理器会刷新内存,并在内部保存处理器微体系结构的状态,切断内核与二级高速缓存的供电来源。在深度节能状态中,芯片组能在不唤醒处理器的状态下,继续为输入/输出(I/O)提供内存流量。但是,一旦需要采用内核时,电压便会升高,这时时钟启动,处理器重新设置,微体系结构状态也将恢复,并继续执行指令。

  我们知道,C 状态程度越深,进入此状态和返回活跃状态的能源损耗也就越高。因而,过于频繁地切换至深度 C 状态导致净能量的损失。为防止上述情况的发生,Penryn 采用了自动降级功能,它借助智能的试探法,来确定闲置期间的功耗节省能否补偿关闭和重启处理器的能源成本。如果不能,则深度节能技术将会要求处理器降至深度较浅的电源管理状态 — C4 状态。这样即可达到节能的效果,又可将能耗成本控制在一定范围内。

   增强型英特尔动态加速技术

  为进一步改善单线程应用的性能,英特尔对当前英特尔酷睿2处理器中所用的英特尔动态加速技术进行了增强。当一个内核处于空闲状态时,该增强特性可利用该内核释放的性能扩展空间,来提升另一个仍处于激活状态的内核性能。(想像一下带有两个淋浴头的淋浴器。当一个淋浴头关闭时,另一个淋浴头的水压或性能就会增强。)如果一个内核处于 C3 或更深度的 C 状态,那么通常用于该闲置内核的电力便可应用于另外一个活跃内核,同时可确保功耗仍在处理器的热计功耗规范范围内。这样便可提高单线程应用的运行速度,进而改善许多应用的性能。

五、展望 2008:英特尔的下一代微体系结构

  英特尔的架构和芯片技术进步立足于迅速的技术发展节奏,创新步伐的加快可推动未来十年及更长时间内处理器性能和能效的提升。英特尔将这种快速发展节奏称为芯片与微体系结构的“tick-tock”模式。这里的“tick”代表着全新的硅制程技术与增强型微体系结构。相应的“tock”代表着崭新的微体系结构设计。循环周期为两年。采用英特尔 45 纳米高 K 硅制程技术的 Penryn 家族是最新的“tick”产物,它包含有众多针对英特尔酷睿微体系结构的创新特性。2008 年英特尔将推出下一个“tock”产物,即代号为 Nehalem 的新一代微体系结构。

  作为真正可实现动态扩充和设计扩充的微体系结构, Nehalem 可以为各种类型的平台提供按需性能、最佳的性价比以及性能功耗比。

  Nehalem 的动态可扩充性可通过以下方式提供按需性能:

  * 动态管理内核、线程、高速缓存、接口和功耗

  * 充分利用 4 指令输出英特尔(R) 酷睿(TM) 微体系结构(与其它处理器每时钟周期处理 3 条或更少指令相比,英特尔酷睿微体系结构能够持续地确保每时钟周期处理多达 4 条指令)

  * 并发多线程(英特尔超线程(HT)技术)可提升性能与能效

  * 添加了创新的英特尔(R) SSE4 和 ATA 指令集

  * 卓越的多级共享高速缓存

  * 领先的系统和内存带宽

  * 性能增强型动态电源管理

  Nehalem 的设计可扩充性,能通过以下方式,为各个市场提供最佳的性价比和性能功耗比:

  * 面向下一代英特尔处理器和平台的全新系统架构

  * 可扩充的性能,支持从一个线程扩充至十六个(或更多)线程以及从一个内核扩充至八个(或更多)内核

  * 可扩充和可配置的系统互连以及集成内存控制器

  * 面向客户机平台的高性能集成图形引擎

六、32 纳米硅制程技术即将闪亮登场

  继 Nehalem 之后,英特尔将推出基于 32 纳米硅制程技术的的处理器。作为英特尔芯片技术与微体系结构创新发展节奏中的下一个“tick”,它将进一步巩固英特尔产品的领先地位。对我们的客户而言,这一架构的问世,意味着未来几年内处理器将会实现巨大的性能和能效提升,同时还会涌现出多种非凡的特性与能力。

(编辑:ASP站长网)

    网友评论
    推荐文章
      热点阅读