设为首页
今日导读
 PCPOP首页 > 显卡 > 评测 > 正文
ATI HD 2900XT

完美DX10!ATI新王者HD2900XT权威评测

泡泡网 2007年05月15日 类型:原创 作者:泡泡网评测室 编辑:孙敏杰
  
    对于一款采用统一渲染架构的GPU来说,统一着色单元就是它的核心,因为通常所说的顶点和像素都要由统一着色单元处理,DX10新引入的几何着色以及未来的GPU物理加速技术也是完全依靠统一着色单元。所以,统一着色单元的架构及规模决定了GPU的运算能力以及显卡的3D游戏性能!
 
第四章\第六节 Stream Processing Units(流处理器
 
完美DX10!ATI新王者HD2900XT权威评测
 
 R600拥有64个复杂的Stream Processing Units
 
    NVIDIA将G80的128个统一着色单元命名为Streaming Processors;ATI将R600的64个统一着色单元命名为Stream Processing Units。一字之差导致其含义完全不同,虽然通常都称之为流处理器,但其结构相差甚远,所以无法单纯通过数量来判断其处理能力。也正是从DX10开始,NVIDIAATI在Shader设计方面走上了截然相反的道路,两者分别对传统的Shader架构进行了革命性改进,在介绍R600的SP之前,首先从传统Shader的弊端谈起:
 
第四章\第六节\第一小节 SIMD架构的弊端
 
    在图形处理中,最常见的像素都是由RGB(红黄蓝)三种颜色构成的,加上它们共有的信息说明(Alpha),总共是4个通道。而顶点数据一般是由XYZW四个坐标构成,这样也是4个通道。在3D图形进行渲染时,其实就是改变RGBA四个通道或者XYZW四个坐标的数值。为了一次性处理1个完整的像素渲染或几何转换,GPU的像素着色单元和顶点着色单元从一开始就被设计成为同时具备4次运算能力的运算器(ALU)。
 
完美DX10!ATI新王者HD2900XT权威评测
 
    数据的基本单元是Scalar(标量),就是指一个单独的值,GPU的ALU进行一次这种变量操作,被称做1D标量。由于传统GPU的ALU在一个时钟周期可以同时执行4次这样的并行运算,所以ALU的操作被称做4D Vector(矢量)操作。一个矢量就是N个标量,一般来说绝大多数图形指令中N=4。所以,GPU的ALU指令发射端只有一个,但却可以同时运算4个通道的数据,这就是SIMD(Single Instruction Multiple Data,单指令多数据流)架构。
 
完美DX10!ATI新王者HD2900XT权威评测
 
 R520核心的像素单元为4D矢量SIMD架构
 
    显然,SIMD架构能够有效提升GPU的矢量处理性能,由于VS和PS的绝大部分运算都是4D Vector,它只需要一个指令端口就能在单周期内完成4倍运算量,效率达到100%。但是4D SIMD架构一旦遇到1D标量指令时,效率就会下降到原来的1/4,3/4的模块被完全浪费。为了缓解这个问题,ATINVIDIA在进入DX9时代后相继采用混合型设计,比如R300就采用了3D+1D的架构,允许Co-issue操作(矢量指令和标量指令可以并行执行),NV40以后的GPU支持2D+2D和3D+1D两种模式,虽然很大程度上缓解了标量指令执行效率低下的问题,但依然无法最大限度的发挥ALU运算能力,尤其是一旦遇上分支预测的情况,SIMD在矢量处理方面高效能的优势将会被损失殆尽。
 
第四章\第六节\第二小节 G80全新的MIMD架构
 
    而G80打破了这种传统设计,NVIDIA的科学家对图形指令结构进行了深入研究,它们发现标量数据流所占比例正在逐年提升,如果渲染单元还是坚持SIMD设计会让效率下降。为此NVIDIA在G80中做出大胆变革:流处理器不再针对矢量设计,而是统统改成了标量ALU单元。
 
为王位而生 GeForce8800全面解析测试
 
 G80核心架构,每个流处理器就是一个标量ALU
 
    如此一来,对于依然占据主流的4D矢量操作来说,G80需要让1个流处理器在4个周期内才能完成,或者是调动4个流处理器在1个周期内完成,那么G80的执行效率岂不是很低?没错,所以NVIDIA大幅提升了流处理器工作频率(两倍于核心频率),扩充了流处理器的规模(128个),这样G80的128个标量流处理器的运算能力就基本相当于传统的64个(128×2÷4)4D矢量ALU。
 
    当然这只是在处理4D指令时的情形,随着图形画面越来越复杂,1D、2D、3D指令所占比例正在逐年增多,而G80在遇到这种指令时可说是如鱼得水,与4D一样不会有任何效能损失,指令转换效率高并且对指令的适应性非常好,这样G80就将GPU Shader执行效率提升到了新的境界!
 
    与传统的SIMD架构不同,G80这种超标量流处理器被称为MIMD(Multiple Instruction Multiple Data,多指令多数据流)架构。G80的架构听起来很完美,但也存在不可忽视的缺点:根据前面的分析可以得知,4个1D标量ALU和1个4D矢量ALU的运算能力是相当的,但是前者需要4个指令发射端和4个控制单元,而后者只需要1个,如此一来MIMD架构所占用的晶体管数将远大于SIMD架构!
 
为DX10而生!NV新中端8600/8500全评测   为DX10而生!NV新中端8600/8500全评测
 
 G84/G86的成本控制远不如G71/G73
 
    G80拥有6.81亿晶体管,考虑到它那强大的性能可能很多人并不认为它的晶体管规模比较恐怖,但是如果大家稍微留意一下G84和G86核心,就会发现仅有128Bit显存控制器、32个流处理器的G84(2.89亿)和16个流处理器的G86(2.10亿),其最终游戏效能其实要低于上代的G71(2.78亿)和G73(1.77亿)!
 
    G80的128个1D标量ALU听起来规模很庞大,而且将4D矢量指令转换为4个1D标量指令时的效率也能达到100%,但实际上如果用相同的晶体管规模,可以设计出更加庞大的ALU运算器,这就是R600统一渲染单元的架构。

完美DX10!ATI新王者HD2900XT权威评测

 

本文共有 条评论,点击查看读者的评论

欢迎转载泡泡网原创文章,请注明:转载自泡泡网 [ http://www.pcpop.com/ ]
本文链接地址:http://www.pcpop.com/doc/0/194/194233.shtml
显卡阅读排行
一周
一月
评论
十大热门显卡
型号
品牌
关于我们 | 网络营销 | 泡泡网快讯 | 产品服务 | 网站地图 | 招聘信息 | 联系我们 | 合作网站
电信与信息服务业务经营许可证:京ICP证070141号 | 北京市公安局海淀分局网监中心备案编号:1101081229