流处理器缘何差6倍！A/N GPU架构解析-泡泡网

泡泡网显卡频道 PCPOP首页 / 显卡 / 评测 / 正文

流处理器缘何差6倍！A/N GPU架构解析

2010年03月01日 00:01作者：孙敏杰编辑：孙敏杰文章出处：泡泡网原创

● “管线”的由来——1个时钟周期4次运算

在图形处理中，最常见的像素都是由RGB（红绿蓝）三种颜色构成的，加上它们共有的信息说明（Alpha），总共是4个通道。而顶点数据一般是由XYZW四个坐标构成，这样也是4个通道。在3D图形进行渲染时，其实就是改变RGBA四个通道或者XYZW四个坐标的数值。为了一次性处理1个完整的像素渲染或几何转换，GPU的像素着色单元和顶点着色单元从一开始就被设计成为同时具备4次运算能力的算数逻辑运算器（ALU）。

完美DX10!ATI新王者HD2900XT权威评测

传统像素管线/Shader示意图

数据的基本单元是Scalar（标量），就是指一个单独的值，GPU的ALU进行一次这种变量操作，被称做1D标量。由于传统GPU的ALU在一个时钟周期可以同时执行4次这样的并行运算，所以ALU的操作被称做4D Vector（矢量）操作。

SIMD架构示意图

一个矢量就是N个标量，一般来说绝大多数图形指令中N=4。所以，GPU的ALU指令发射端只有一个，但却可以同时运算4个通道的数据，这就是SIMD（Single Instruction Multiple Data，单指令多数据流）架构。

● “管线”弊端越发明显，引入混合型设计

显然，SIMD架构能够有效提升GPU的矢量处理性能，由于顶点和像素的绝大部分运算都是4D Vector，它只需要一个指令端口就能在单周期内完成4倍运算量，效率达到100%。但是4D SIMD架构一旦遇到1D标量指令时，效率就会下降到原来的1/4，3/4的模块被完全浪费。为了缓解这个问题，ATI和NVIDIA在进入DX9时代后相继采用混合型设计，比如R300就采用了3D+1D的架构，允许Co-issue操作（矢量指令和标量指令可以并行执行），NV40以后的GPU支持2D+2D和3D+1D两种模式，虽然很大程度上缓解了标量指令执行效率低下的问题，但依然无法最大限度的发挥ALU运算能力，尤其是一旦遇上分支预测的情况，SIMD在矢量处理方面高效能的优势将会被损失殆尽。

改进的管线/Shader结构

可以这么理解，传统的1条管线里面包含了4个基本运算单元，在早期这种架构的执行效率还是很高的，因为大多数程序指令都是4D的。但由于API和游戏复杂Shader指令的发展，4D指令所占比重开始下降，3D/2D/1D等混合指令频繁出现，所以传统的管线式架构效率越来越低！

1人已赞

第1页：为什么A卡的流处理器要比N卡多很多第2页：管线的由来和传统矢量运算单元的弊端第3页：G80的标量流处理器架构第4页：R600的超标量流处理器架构第5页：G92和RV670：核心架构没有任何变化第6页：GT200架构的变化：重组SM结构第7页：RV770架构的变化：脱胎换骨第8页：RV870架构的变化：双核心设计第9页：GF100架构改进最大，即将发布敬请期待

流处理器缘何差6倍！A/N GPU架构解析

关注我们