您的位置:硬件DIY首页 >> CPU >> 评测 >> 正文

新皇者的声音!QX9650详细分析与测试

2007-11-26 09:23:53 作者:WolStame

核心提示:到这张图片之后,相信不少人记起了曾经无限风光,占据主导市场的Intel Pentium 4吧。虽然至今Pentium系列仍然以低端存在,但是它的时……

友情提示:

看到这张图片之后,相信不少人记起了曾经无限风光,占据主导市场的Intel Pentium 4吧。虽然至今Pentium系列仍然以低端存在,但是它的时代已经彻底的消亡了,取而代之的是酷睿2的时代。

随着Pentium 4一起消亡的还有就是Netburst架构,酷睿2时代,全新的Core 2架构给业界一个最为震撼的变革,这种变革已经不在以往简单的频率爬升所能带来微乎其微的性能提升里,已经完全超乎了人们的想象,在那一刹那,似乎给人感觉,得U如此,user复何求.....

然后随着时间的推移,那曾经无比风光的酷睿2在现在越来越复杂的应用里也开始有些稍显不足,比如说大型的3D游戏,高品质的HD视频回放,多任务同时进行的oa作业,更加可怕的是越来越多视频爱好者喜欢上了转码,一个H.264的高质量编码过程,在提高了5DB的信噪比之后其复杂程度是原来的几十倍乃至上百倍.....

 

很显然,从现在越来越多的应用中我们看到,人们对通用处理器的需求没有随着Core2的降临而缓解,我们还是需要更强大,更高速的处理器。

在AMD风风火火的推出K10之后,人们似乎忘记了AMD那被Core2曾经摧残得片无体肤AM2 K8,重新寄希望于直接跳了两级的K10 phenom,希望以全新的架构,能推翻现在Core 2”一桶浆糊“的现状...

现在我们可不是去讨论Phenom做了多大的变革,又或者它今后会给市场带来多大的影响,我们知道INTEL也有它的新产品,也就是之前闹得沸沸扬扬的 Yorkfield 和Wolfdale,现在统称为Penryn,尽管它相对于Conre/merom不会有多大的变革,毕竟Core2是一个可以持续很长时间的优良架构,但是其从65nm换到45nm,增加了L2 Cache,SIMD支持到SSE4,无疑对本来强劲的Core 2再锦上添花。

先从tick-tock开始说起

说到tick-tock,就相当于时钟的“嘀嗒”的意思,这也代表完整一秒,一个“嘀嗒”分为两个过程,一个是“嘀”一个是“嗒”,缺一不可。

而在英特尔提出tick-tock的计划里,tick不仅仅是起始,它代表全新的硅制程江湖和增强型微体系结构。相应的‘tock’代表着全新的微体系结构设计,两者之间的循环周期为两年。

也就是说在这一个完整的周期里,包含了一个改良,增强以及完善,而另一个则是创新和革命。

从上面的蓝图我们可以看到,Tock已经从Core2诞生就已经完成,这的确是业界最为重要的创新,而Penryn则是一个相对于Core2的一个进程上的优化以及对其功能性能上的完善。

Penryn家族是最新的‘TICK’产物,它包含众多针对酷睿2代处理器的创新特征。也就是说,我们在Penryn上面,我们看不到革命性的变化。

当然作为酷睿2处理器的进一步升级,‘Penryn’不仅仅是利用45nm制程来改进能耗和Die核心面积,新增加更多的晶体管,提供了大量的新构架特征和进步,这些改进表现在如下方面:增加全新的英特尔SSE4指令扩展;二级高速缓存增大50%,24路组联设计;FSB提升至1600MHz;增强型英特尔虚拟化技术;增加超级乱序执行引擎和快速的Radix-16除法器、深度节能技术何增强型动态加速技术等一系列改进,这些改进使得‘Penryn’无论在桌面系统面对的图形、视频编码、3D成像和游戏应用、音频、数据压缩等应用还是服务器领域的快速虚拟化迁移、基于数据库或交易处理等应用都获得明显提升

英特尔45纳米SRAM测试晶圆

 

下面我们将一一剖析Penryn所带来的巨大改进。

45nm制程上的改进

英特尔45纳米晶圆局部放大细节图

在此之前,我们来了解一下45纳米空间有多小:

一:十亿纳米等于一米

二:在人类的一根头发上可以放置2000多个45纳米晶体管

三:一个45纳米晶体管每分钟可以接触或断开约3000亿次,而在每次接通和断开45纳米晶体管所用的时间内,一束光仅能穿行不到1/10英寸

四:一个细菌=2000纳米

跟当前的65纳米工艺相比,下一代45纳米高k制程技术可以将晶体管数量提高近2倍,如下一代英特尔酷睿2 四核处理器将采用8.2亿个晶体管。借助新发明的高-k金属栅极晶体管技术,这8.2亿个晶体管能够以光速更高效地进行开关,晶体管切换速度提升了20%以上,实现了更高的内核速度,并增加了每个时钟周期的指令数。双核处理器中的硅核尺寸为107平方毫米,比英特尔目前的65纳米产品小了25%,大约仅为普通邮票的四分之一大小,为添加新的特性、实现更高性能提供了更多自由空间。同时,由于减少了漏电流,因而可以降低功耗,同英特尔现有的双核处理器相比,新一代处理器能够以相同甚至更低的功耗运行,如Penryn处理器的散热设计功耗是,双核为40瓦/65瓦/80瓦,四核是50瓦/80瓦/120瓦。当然了,在一个wafer上可以集成更多的CPU,这样可以节省不少成本。

 

另外, Intel 正积极朝协助环境永续发展而努力,包含全面采用无铅制程、重视产品能源效率运用、减少废气排放,以及大规模回收再利用水资源与制造材料等。

数十年以来,由于铅具备适当的电气和机械特性,因此广泛应用在电子零组件等产品中,但近年来研究发现,铅制产品已严重影响全球生态环境和公众健康,因此包括全球各大业者皆全力寻找能满足效能和可靠性需求的铅替代材料。

以 Intel 为例,多年来在与供货商和其他半导体及电子零组件公司合作下,已陆续开发无铅解决方案, 2002 年, Intel 推出了第一个采无铅方式制造的无铅闪存产品,自 2004 年起,英特尔出货产品含铅量已较前一代微处理器和芯片组封装大幅减少 95% 。

更重要的是, Intel 计划以 3 座晶圆厂生产 45 奈米产品,位于美国奥勒岗洲 (Oregon , USA) 的 D1D 晶圆厂及美国亚利桑那洲 (Arizona , USA) 的 Fab32 晶圆厂,将率先于 2007 年下半年导入 45 奈米制程,而以色列 (Israel) 的 Fab 28 则预定于 2008 年上半年投入 45 奈米生产行列。这代表着Intel处理器在未来将全面进入45纳米时代。

SIMD再次升级:SSE4

 我们来先简单介绍一下SIMD-SIMD(Single Instruction Multiple Data) 多媒体指令集,可把多个批次性的指令组变成单一指令,以提升数据处理能力,最早Intel的SIMD是MMX,源为提升多媒体数据的处理能力,一共有57条指令集;

SSE是随着Pentium III推出而推出的,全名为 Streaming SIMD Extensions。 有人因为Pentium III变化不大,而把Pentium III戏称为Pentium II+SSE。SSE新增了70条指令集,同时解决了 MMX 指令与浮点指令不能同时处理的问题。

SSE2是伴随着Pentium 4推出的,新增指令共 144 条,主要加入 64 位双精度浮点数及整型运算指令,以及加入处理器对 Cache 的控制指令以减低延迟,更重要的是完全解决 SSE 集指令需要占用浮点数据缓存器问题。

SSE3以及SSSE3。Prescott 核心的 Pentium 4 处理器首次采用了SSE3,除了流水线从20级提升到了31级,这是Prescott最大的变动之处。新增指令仅 13 条,主要特点是加入水平式缓存器整数运算,可对多笔数值同时进行加法或减法运算,令处理器能大量执行 DSP 及 3D 性质的运算。

另外,SSE3对多执行绪的指令进行过优化,在多线程的应用中(当时Prescott主要是指Hyper-Theading )得到更大的加成。

事隔两年后,SSSE3诞生了。SSSE3是对Supplemental Streaming SIMD Extension 3 的简称,仅增加了16条指令集,变化 比较小,所以在命名上仅仅是加了一个Supplemental作为前棳。有一种说法称SSSE3新增的部分原来是SSE4的,可对于Conroe革命性的架构更加需要SIMD的更新,但SSE4又没有完成,所以有了SSSE3的临时客串,这样看来SSSE3更像是一种催生产品。

SSE4:全名为Streaming SIMD Extension 4,被视为继2001年以来最重要的媒体指令集架构的改进,除扩展Intel 64指令集架构外,还加入有关图形、视频编码及处理、三维成像及游戏应用等指令,令涉及音频、图像和数据压缩算法的应用程序大幅受益。

  Penryn处理器搭载了最新的SSE4指令集,SSE4(Streaming SIMD Extensions 4)是英特尔自从SSE2之后对ISA扩展指令集最大的一次的升级扩展,它将会随着Penryn处理器陆续应用于台式机平台、移动平台和服务器中。据目前所致,SSE4包括大约50条新指令,Penryn通过这些新指令集,增强了从媒体应用到高性能计算应用领域的性能,同时还利用一些专用电路实现对于特定应用加速。

  从指令数目上看,SSE4的47条指令增加了的指令改进了整数和浮点操作,支持DWORD和QWORD操作,新的单精度FP操作、快速寄存器操作、面向性能优化的内存操作等等,包括了图形、图像、数据装载各方面的革新,因此称其为SSE2以来最大的指令集变动也是不为过的。利用支持SSE4指令集的编译器编译之后,包括图形/图像处理、视频处理、2D/3D创作、多媒体、游戏、内存敏感负载、高性能计算等应用都会受益。

  SSE4指令集的具体指令如下图所示,按照目前的资料,SSE4指令集还将分为两个版本:4.1和4.2,SSE4.1版本将随着45nm Penryn发布,而SSE4.2版本将会随着Penryn的下一代Nehalem发布,4.1将包括47条指令,4.2将包括7条指令,因此下图的指令数目实际上并不是47,未来的SSE4.2指令数目也可能会有变动。

  

Penryn SSE4 Instruction summary
Instruction Category
Instructions
Benefits
Packed DWORD Multiplies
PMULLD, PMULDQ
提升编译器矢量运算性能
Floating Point Dot Product
DPPS, DPPD
3D动画制作与游戏、支持CG及HLSL等语言
Multi-packed sum of absolute diffs& min pos
MPSADBW, PHMINPOSUW
视频编码处理
Streaming Load
MOVNTDQA
视频编码处理、图形及GPU数据分享
Floating Point Round
ROUNDPS, ROUNDSS, ROUNDPD, ROUNDSD

视频编码处理、图形、视频处理、3D/3D应用、多媒体及游戏等
Packed Blending
BLENDPS, BLENDPD, BLENDVPS, BLENDVPD, PBLENDVB, PBLENDDW
编译器矢量运算及视频、音频处理、多媒体、游戏等应用
Packed Integer Min and Max
PMINSB, PMAXSB, PMINUW, PMAXUW, PMINUD, PMAXUD, PMINDS, PMAXSD
Register Insertion/Extraction
INSERTPS, PINSRB, PINSRD, PINSRQ, EXTRACTPS, PEXTRB, PEXTRD, PEXTRW, PEXTRQ
Packed Format Conversion
PMOVSXBW, PMOVZXBW, PMOVSXBD, PMOVZXBD, PMOVSXBQ, PMOVZXBQ, PMOVSXWD, PMOVZXWD, PMOVSXWQ, PMOVZXWQ, PMOVSXDQ, PMOVZXDQ
Packed Test & Set
PTEST
Packed Compare for Equal
PCMPEQQ
Pack DWORD to Unsigned WORD
PACKUSDW

SSE4 :向量、浮点运算专门化 加入串流式负载指令

 

对于Nehalem的SSE4.2,Intel的Gelsinger介绍说,这7条指令集的用途各有不同,比如有面向CRC-32和POP Counts等特定应用的,有特别针对XML等的流式指令。Gelsinger称,新指令集可以将256条指令合并在一起执行,从而让XML类工作的性能提高3倍。

Penryn搭载的SSE4.1指令集主要分为三个部分,分别是SSE4视频编码加速部分、SSE4图形加速部分和SSE4流加载部分,其中SSE4视频编码加速部分包括了14条指令,用于加速4x4绝对差和、子像素过滤一击数据查找方面的性能。

Penryn的其它重大改良

除了采用更先进的 45 奈米制程及加入全新 SSE4 指令集外, Penryn 亦基于 Intel Core 微架构设计作出多项改良,称为「 Enhanced Intel Core Microarchitecture 」,并加入了︰
Fast Radix-16 Divider( 快速 Radix-16 除法器 )
Super Shuffle Engine( 超级洗牌引擎 )
Split Load Cache Enhancement( 增强型缓存拆分负载 )
Improved Store Forwarding( 存储转发 )
Faster OS Primitive Support( 高速操作系统同步原始支持 )
Virtualization Performance Improvements ( 增强的 Intel 虚拟化技术 )
Deep Power Down Technology( 深度节能技术 )
Enhanced Dynamic Acceleration Technology( 增强型动态加速技术 )
据 Intel 资深工程师兼 Penryn 微架构主管 Stephen Fischer 表示,与上代处理器产品相比, Penryn 处理器在绘图效能约超过 15% 、视讯编码平均可提高 20% 、 3D 内容制作可提高逾 30% , 3D 游戏效能更可高达 40% ,视乎软件设计而定。

此外, Core 微架构更加入 Macro-Fusion 技术,可把部份指令组合成单一 Micro-Op 指令,令特定情况下每个周期可执行 5 个指令,更保留 Micro-op Fusion 技术,把相同的 Macro-ops 混合成单一个 Micro-ops 透过 Out-of-order 逻辑可减少 10% 的 Micro-op 指令执行数,除提升核心的执行效率,同时也保持高能源效益
Penryn 处理器除沿袭 Core 微架构的优点外,并进一步改良除法器的设计,在科学计算、三维坐标转换和其他数学运算密集型功能中,其带来约 2 倍的除法器速度,所包含的新一代的快速除法技术称为 Radix-16 ,可加速浮点和整数的除法指令周期。

据了解,基数为 4 的算法会在每次迭代运算中计算其 2 位的商值,当提高到基数为 16 的算法时,则允许在每次迭代中计算 4 位的商值,进而使延迟缩减一半。

Enhanced Core MA: Super Shuffle Engine

Intel 在 Core 微架构中加入 128Bit-SIMD interger arithmetic 及 128bit SIMD 双倍精准度 Floating-Point Operations 单元。旧有的处理器执行 128Bit 的 SSE 、 SSE2 及 SSE3 指令时,需要把指令分拆为 2 个 64Bit 指令,在 2 个频率周期完成,但 Core 微架构则只需要 1 个频率周期便能完成,执行效率提升达 1 倍,现时 SSE 指令集已普遍使用于主流软件中,包括绘图、影像、音效、加密、数学运算等用途,单周期 128Bit 处理器能力利用频率以外的方法提升效能。

另一方面, Penryn 处理器也有显著改良,其加入全新 Super Shuffle Engine ,令 SSE 指令运算更具效率,以往处理 Unpacking 、 Packing 、 align Concatenated Sources 、 Wide Shifts 、 Insertion 及 Horizontal Arithmetic Functions Setup 等 128Bit 宽度的字节、字及 Dword SSE 数据时,均无法在单一周期内完成,但 Super Shuffle Engine 设计除可让这些不同性质的 128Bit SSE 指令,在 1 个周期内便可完成,减低延迟及吞吐量外,更不用在软件端中作出改良即可实现。

Penryn增大的L2 CAHCE以及共享FSB带宽

Intel Core 微架构明显强化处理器的 Cache 架构,传统的双核心设计中,每个独立的核心都有自己的 L2 Cache ,但 Intel Core 微架构则是透过核心内部的 Shared Bus Router 共享相同的 L2 Cache ,当 CPU 1 运算完毕后把结果存在 L2 Cache 时, CPU 0 便可透过 Shared Bus Router 读取 CPU 1 放在共享 L2 Cache 上的数据,大幅减低读取上的延迟并减少使用 FSB 带宽。同时加入 L2 & DCU Data Pre-fetchers 及 Deeper Write output 缓冲存储器,大幅增加 Cach 的命中率。

Shared Bus Router 除更有效处理 L2 Cache 读取外,亦为双核心使用 FSB 传输进行排程,新加入的 Bandwidth Adaptation 机制改善了双核心共享 FSB 时的效率,减少不必要的延迟。

Penryn 处理器的 L2 Cach 容量增加了 50% ,双核心产品 L2 Cach 容量最大可达至 6MB 、四核心更可高达 12MB ,并提升至 24 路联合 (24-way set Associative) ,令 L2 Cache 命中率进一步提升,并大幅度提升使用率。

此外,亦加入全新增强高速缓存行拆分负载功能 (Split Load Cache Enhancement) ,当读取数值时,若数据位于 2 个不同的高速缓存中,则会对负载行进行拆分。即便单个高速缓存行中的数据未经过适当调整,而自单个高速缓存行中读取数据,亦较自 2 个高速缓存行中读取数据快上数倍。

Enhanced Core MA Improved Store Forwarding

据了解, Penryn 能在通过其他负载或存储之前作出推测,并快速分派两部份拆分负载,大大提高读取性能,可拉升执行数据扫描的应用程序的效率,例如视讯动态评估等工作。

Intel Core 微架构加入了 Memory Disambiguation 设计,透过 Out of Order 过程分析内存读取次序,分析数据是否独立读取执行,如果与前面的数据存取动作并无关系,可令其提早执行,降低处理器的等候时间,减少闲置及延迟值。

另外,也进一步改内存系统效能,加速超过 8bit 的地址边界、令处于管线中的杂乱存储结果的读取速度,可立即向负载中的数据转发存储结果,且毋须等待存储完成再写入内存内。

Enhanced Core MAFaster OS Primitive Support

在启动某一个关键代码段、并要以独占的方式访问某一个资源时 ( 例如系列内的 I/O 设备 ) ,某些操作系统会临时阻止或屏敝中断,因此 Penryn 加入高速操作系统同步原始支持 (Faster OS Primitive Support) ,能更快速清除中断、设置中断功能 (CLI/STI) ,迅速进入及退出此一模式,进而显著提高执行此类代码段的性能。

Penryn 处理器可以更快速地执行锁定的指令,例如 XCHG 、 ADD/XADD/NEG/BTS/AND 及 CMPXCHG ,且可更快速访问时间戳数器 (RDTSC) ,以上这些功能常用于数据库或事务处理的服务器。

Enhanced Core MA Virtualization Performance Improveme




Penryn处理器在VT (Virtualization Technology)技术上进行显著改良,其支持EPT 延伸分页,并改良VT-x指令对虚拟主机转换、进入及退出的速度,平均可提升 25%至75%,且只需要通过微架构上的改良,不用更改任何虚拟主机软件设计。

Penryn QX9650介绍

较早前Penryn的数据表明QX9650是Penryn系列最为强大的处理器,不过在本文截止时已经有QX9770(400x8)的处理器面世了。

不管如何,至今我们能买到零售版最为强大的处理器,也是Intel现在官方发布最高的Core 2 Extreme仍然是QX9650

Intel 45nm DT CPU Pricing ( 1Ku ) Q1, 2008

Model

Speed

L2 Cache

FSB

11-Nov

Jan 2008

Quad Core

QX9650

3GHz

12MB

1333MHz

$999

-

Q9550

2.83GHz

12MB

1333MHz

-

$530

Q9450

2.66GHz

12MB

1333MHz

-

$316

Q9300

2.50GHz

6MB

1333MHz

-

$266

Dual Core

E8500

3.16GHz

6MB

1333MHz

-

$266

E8400

3.00GHz

6MB

1333MHz

 

$183

E8300

2.83GHz

6MB

1333MHz

-

-

E8200

2.66GHz

6MB

1333MHz

 

$163

Source : MB Manufacturers , Complied by HKEPC Hardware ,Sept2007

这颗就是本文的主角,QX9650。

来个合体照,从表面上来看,如果不看那些标识,可以说没有任何区别。而背面的话则在电容数量以及规格上有少许差别。

 

CPU

INTEL Core 2 Extreme QX6850(3G L2 CAHCE 8M 65nm Quad Core)

INTEL Core 2 Extreme QX9650(3G L2 CAHCE 12M 45nm Quad Core)

主板

ECS P965T-A

散热器 Tunq Tower120
内存 GSKILL F2-8500CL5D-2GBHK
显卡

NVIDIA GEFORCE 8500GT

精英超频版8500GT

电源 TT ToughPower 650W
硬盘 希捷 7200 10 250G(8M) SATA3G
CPU INTEL Core 2 Extreme X6800(2.93G L2 CAHCE 4M)
主板

ASUS Striker Extreme

abit IN9 32X-MAX Wifi

DFI LANParty UT ICFX3200-T2R/G

GIGABYTE GA-965P-DQ6(P965)

ASUS P5W64(975X)

散热器 Tunq Tower120
内存 KINGSTONG HYPER-X PC9200  1T(5-5-5 @DDR2 800)or (4-4-4@DDR 1000)
显卡 NVIDIA GEFORCE 7900GTX
电源 TT ToughPower 650W
硬盘 希捷 7200 10 250G(8M) SATA3G
测试系统 Microsoft Windows XP SP2 Professional
测试软件
  • SISoftware Sandra 2007 Memory Latecy
  • SISoftware Sandra 2007 Processor Arithmetic
  • SISoftware Sandra 2007 Processor Multimedia
  • SISoftware Sandra 2007 Memory Bandwidth
  • Super PI MOD-1.4 English
  • CPUMark 99 Ver1.0
  • Everest 2006 内存潜伏
  • WinRAR 3.60beta7
  • CineBench 9.5
  • Madonion 3DMark 2001SE Ver:330
  • Futuremark 3DMark 03 Ver:360
  • Futuremark 3DMark 05 Ver:120
  • Futuremark 3DMark 06 Ver:102
  • Windows media encode
  • Mainconcept H.264 encoder
  • Razorlame lame
  • Photoshop CS2 9.0
  • F.E.A.R

Penryn QX9650性能测试-3DMARK01,03,05

 

Penryn QX9650性能测试-3DMARK06以及实际游戏

 

Penryn QX9650性能测试-理论测试软件

Penryn QX9650性能测试-Sisoft2007以及Everest

Penryn QX9650性能测试-多媒体编码软件测试

Penryn QX9650性能测试-实际应用软件测试

通过整体测试我们可以看出,QX9650比起前代王者QX6850在性能上增加不少,除了整数上的一些运算打个平手之外,在各领域都有5%到10%的增益,尤其在浮点运算以及视频编码这块更是有一个很大幅度的提升,当然这和12MB L2 CAHCE是分不开的。而对于内存带宽方面的增加,也是和其数据指令预测机制,Memory Disambiguation 设计有很大的关系。

Penryn QX9650超频测试-风冷破10秒

本超频测试由CBB论坛C大提供

QX9650由于采用45nm制造,超频能力大为提升,居然可以风冷超到4.73G,而且由于其效率比之65nm的Core 2更高,所以在4.73G内可以跑10秒,真是令人 吃惊。

总得而言,QX9650比QX6850近步的可不是一点点,性能,功耗,可超性都有明显的提高,而现在,我们所要做到的就,把钱准备好。

 

Google
责任编辑:澄澈
  • 作者:WolStame 来源:互联网
  • >> 相关资讯

      精彩图文
      商家新闻
      近期推荐
      赞助商广告