今日导读
 PCPOP首页 > 显卡 > 评测 > 正文

开创视觉计算帝国GTX280/260权威评测

2008年06月17日 00:01 出处:泡泡网 【原创】 作者:泡泡网评测室 编辑:孙敏杰
在本页阅读全文(共67页)

标量流处理器架构:G80微架构的革命性

第二章/第三节 G80革命性的标量流处理器架构解析

    统一渲染架构让以往的像素管线和顶点管线成为历史,取而代之的是全新的流处理器,从而让着色单元不再区分渲染对象,提高了晶体管利用率和执行效率。目前NVIDIAAMD的GPU都采用了统一渲染架构,但在双方的渲染单元的微架构设计却截然不同,下面就做对比分析。

● 传统SIMD(单指令多数据)架构GPU的弊端

    在图形处理中,最常见的像素都是由RGB(红黄蓝)三种颜色构成的,加上它们共有的信息说明(Alpha),总共是4个通道。而顶点数据一般是由XYZW四个坐标构成,这样也是4个通道。在3D图形进行渲染时,其实就是改变RGBA四个通道或者XYZW四个坐标的数值。为了一次性处理1个完整的像素渲染或几何转换,GPU的像素着色单元和顶点着色单元从一开始就被设计成为同时具备4次运算能力的运算器(ALU)。

完美DX10!ATI新王者HD2900XT权威评测

    数据的基本单元是Scalar(标量),就是指一个单独的值,GPU的ALU进行一次这种变量操作,被称做1D标量。由于传统GPU的ALU在一个时钟周期可以同时执行4次这样的并行运算,所以ALU的操作被称做4D Vector(矢量)操作。一个矢量就是N个标量,一般来说绝大多数图形指令中N=4。所以,GPU的ALU指令发射端只有一个,但却可以同时运算4个通道的数据,这就是SIMD(Single Instruction Multiple Data,单指令多数据流)架构。

    显然,SIMD架构能够有效提升GPU的矢量处理性能,由于VS和PS的绝大部分运算都是4D Vector,它只需要一个指令端口就能在单周期内完成4倍运算量,效率达到100%。但是4D SIMD架构一旦遇到1D标量指令时,效率就会下降到原来的1/4,3/4的模块被完全浪费。为了缓解这个问题,ATINVIDIA在进入DX9时代后相继采用混合型设计,比如R300就采用了3D+1D的架构,允许Co-issue操作(矢量指令和标量指令可以并行执行),NV40以后的GPU支持2D+2D和3D+1D两种模式,虽然很大程度上缓解了标量指令执行效率低下的问题,但依然无法最大限度的发挥ALU运算能力,尤其是一旦遇上分支预测的情况,SIMD在矢量处理方面高效能的优势将会被损失殆尽。

● G80革命性的MIMD(多指令多数据)架构解析

    而G80打破了这种传统设计,NVIDIA的科学家对图形指令结构进行了深入研究,它们发现标量数据流所占比例正在逐年提升,如果渲染单元还是坚持SIMD设计会让效率下降。为此NVIDIA在G80中做出大胆变革:流处理器不再针对矢量设计,而是统统改成了标量ALU单元。

07图形奥德赛!G92核心8800GT权威评测
G80有8组阵列,每组阵列包含16个流处理器和8个纹理单元

    如此一来,对于依然占据主流的4D矢量操作来说,G80需要让1个流处理器在4个周期内才能完成,或者是调动4个流处理器在1个周期内完成,那么G80的执行效率岂不是很低?没错,所以NVIDIA大幅提升了流处理器工作频率(核心频率的两倍以上),扩充了流处理器的规模(128个),这样G80的128个标量流处理器的运算能力就基本相当于传统的64个(128×2?)4D矢量ALU。

    当然这只是在处理4D指令时的情形,随着图形画面越来越复杂,1D、2D、3D指令所占比例正在逐年增多,而G80在遇到这种指令时可说是如鱼得水,与4D一样不会有任何效能损失,指令转换效率高并且对指令的适应性非常好,这样G80就将GPU Shader执行效率提升到了新的境界!

    与传统的SIMD架构不同,G80这种超标量流处理器被称为MIMD(Multiple Instruction Multiple Data,多指令多数据流)架构。G80的架构听起来很完美,但也存在不可忽视的缺点:根据前面的分析可以得知,4个1D标量ALU和1个4D矢量ALU的理论运算能力是相当的,但是前者需要4个指令发射端和4个控制单元,而后者只需要1个,如此一来MIMD架构所占用的晶体管数将远大于SIMD架构!

    G80的128个1D标量ALU听起来规模很庞大,而且将4D矢量指令转换为4个1D标量指令时的效率也能达到100%,但实际上如果用相同的晶体管规模,可以设计出更加庞大的ALU运算器,这就是R600统一渲染单元的架构。

● R600超标量SIMD架构的优缺点

    R600核心还是采用了传统的SIMD架构,核心拥有64个Shader Units(又称Stream Processing Units),但它又在传统Shader基础上进行了该进,每个Shader内部包含了5个超标量ALU,因此AMD声称R600核心拥有64×5=320个流处理器

完美DX10!ATI新王者HD2900XT权威评测
R6XX采用了5D着色单元架构

    R600和G80的晶体管数是差不多的,通过前面的分析我们可以知道,G80的128个标量流处理器的理论运算能力就基本相当于传统的64个(128×2?)4D矢量ALU,而R600本身就拥有64个5D矢量ALU,再加上工艺和显存带宽优势,理论上R600应该比G80强很多才对,但实际情况恰好相反!

    经过实际测试证明,拥有320个流处理器(即64个5D矢量ALU)的RV670核心,其游戏性能居然只能与64个流处理器(折算32个4D矢量ALU)的G94核心打成平手。由此就应验了一个古语:兵贵在精而不在多,无论GPU还是CPU,架构的执行效率永远是排在第一位的,核心频率和核心数量只能作为辅助,无法起到决定性作用。

● 小结:GF8/9完胜HD2000/3000的奥秘

    HD2000/3000系列使用了“超标量”架构的5D着色单元,虽然流处理器数量要远大于GF8/9系,而且晶体管开销更少,但在不同游戏中的性能表现反差很大,总体来看执行效率不如人意,对于驱动程序的依赖性非常严重。

    GF8/9能够在较少晶体管、较低频率、陈旧工艺等诸多不利局面下完胜HD2000/3000,靠的就是全新架构标量流处理器超高的执行效率!

    GTX200核心就是在G80基础上改进而来的,它继承了G80高频、高效能的标量架构流处理器,并扩充了规模、增强了功能,接下来就开始研究GTX200的核心架构。

本文导航
第01页:目录:开创视觉帝国!GTX280/260权威评测
第02页:前言:3D性能原地踏步19个月业界呼唤新王
第03页:回顾:DX10时代NVIDIA三款旗舰显卡
第04页:回顾:DX10时代AMD两款旗舰显卡
第05页:第一代统一架构:统一像素/顶点/几何/物理
第06页:第二代统一架构:统一并行计算和图形处理
第07页:标量流处理器架构:G80微架构的革命性
第08页:GTX200芯片透视图、架构图、规格总表
第09页:GTX200核心架构解析:大幅扩充流处理器
第10页:GTX200核心架构解析:512Bit显存消除瓶颈
第11页:GTX200图形架构解析:优化几何/纹理/光栅
第12页:GTX200并行架构解析:支持双指令/双精度
第13页:GTX200特殊功能解析:完美芯片级节能技术
第14页:CUDA概念:并行计算相对串行计算的优势
第15页:CUDA目的:一个以GPU为中心的运算平台
第16页:CUDA应用:视频加速、期货风险分析系统
第17页:CUDA应用:医疗行业、地理信息系统
第18页:CUDA应用:生命科学、CAD设计、MATLAB
第19页:CUDA应用:GPU的先天优势和后天发展
第20页:物理加速:Intel搅局GPU物理加速受阻
第21页:被逼无奈,NVIDIA重金收购AGEIA
第22页:兵贵神速:仅1月时间PhysX引擎就支持N卡
第23页:实物赏析:GTX280是8800GTX的真正接班人
第24页:G200核心:14亿晶体管怪兽+NVIO2代输出
第25页:1GB 512Bit显存,现代0.8ns GDDR3颗粒
第26页:供电模块:N卡史上最豪华的数字供电模块
第27页:大家来找碴:GTX280和GTX260外观上有何异
第28页:GTX260解析:精简了2颗显存和2相供电
第29页:七彩虹GTX280/260,大陆独家供货充足
第30页:索泰GTX280高频版,浮点运算历史性突破1TF
第31页:GeForce 6/7/8三款经典DEMO回顾
第32页:GTX200演示Demo Medusa赏析(一)
第33页:GTX200演示Demo Medusa赏析(二)
第34页:Medusa的特色:集上代Demo特色与一身
第35页:Medusa的特色:模拟未来游戏场景
第36页:性能测试:顶级测试平台介绍
第37页:DX9C理论性能测试:3DMark06
第38页:DX10理论性能测试:3DMark Vantage
第39页:DX9C游戏测试:《超级房车:起点》
第40页:DX9C游戏测试:《使命召唤4》
第41页:DX9C游戏测试:《帝国3:亚洲王朝》
第42页:DX9C游戏测试:《半条命2:第二章》
第43页:DX9C游戏测试:《极品飞车11》
第44页:DX9C游戏测试:《虚幻竞技场3》
第45页:OpenGL游戏测试:《雷神战争》
第46页:DX10游戏测试:《孤岛危机》
第47页:DX10游戏测试:《失落星球》
第48页:DX10游戏测试:《英雄连》
第49页:DX10游戏测试:《刺客信条》
第50页:DX10游戏测试:《冲突世界》
第51页:DX10游戏测试:《生化奇兵》
第52页:DX10游戏测试:《地狱门:伦敦》
第53页:性能对比:GTX280 VS GTX260
第54页:性能对比:GTX280 VS 9800GX2
第55页:性能对比:GTX280 VS 9800GTX
第56页:性能对比:GTX280 VS 8800Ultra
第57页:性能对比:GTX280 VS 8800GTX
第58页:性能对比:GTX280 VS HD3870X2
第59页:多卡系统:GTX280 SLI效率测试
第60页:多卡系统:GTX280三路SLI效率测试
第61页:功耗测试:GTX200系列显卡全平台功耗测试
第62页:视频解码:高清CPU占用率测试
第63页:CUDA应用测试:BadaBOOM视频编码
第64页:CUDA应用测试:Folding@home
第65页:专访饭田庆太:GTX280给游戏更多机会
第66页:专访邓培智:性能翻倍 DirectX 10.1非主流
第67页:全文总结:迎接视觉计算时代来临
第68页:NVIDIA GeForce GTX 280 报价
快速转帖:
  • 人人网
  • 淘宝网
  • 搜狐微博
  • 网易微博
  • 腾讯微博

本文共有 条评论,点击查看读者的评论

    
欢迎转载泡泡网原创文章,请注明:转载自泡泡网 [ http://www.pcpop.com/ ]
关于我们 | 网络营销 | 泡泡网快讯 | 产品服务 | 网站地图 | 招聘信息 | 联系我们 | 合作网站 | 法律声明 | 渠道合作
电信与信息服务业务经营许可证:京ICP证070141号 | 北京市公安局海淀分局网监中心备案编号:1101081229