泡泡网显卡频道 PCPOP首页      /      显卡     /      评测    /    正文

HD7970脱胎换骨全测试!5年架构大革命

第二章/第九节 GPU的一大步:NVIDIA G80图形架构解析

    AMD的GPU架构介绍了这么多,对于其优缺点也心知肚明了,之前笔者反复提到了“效率”二字,其参照物当然就是NVIDIA的GPU,现在我们就来看看NVIDIA的GPU架构有什么特点,效率为什么会比较高?为什么更适合并行计算?

    SIMD效率不高的根本原因

    无论AMD怎么调整架构,5D还是4D的结构都还是SIMD,也就是这4-5个ALU要共用一个指令发射端口,这样就对GPU指令派发器提出了很高的要求:如果没有把4-5个指令打包好发送到过来,那么运算单元就不会全速运行;如果发送过来的4-5个指令当中包含条件指令,但运行效率就会降至连50%都不到,造成灾难性的资源浪费。

    解决方法也不是没有,但都治标不治本,需要对游戏/程序本身进行优化,尽量避免使用标量指令、条件指令和混合指令,驱动为程序专门做优化,难度可想而知。

    而治本的方法就是抛弃SIMD架构,从源头上解决指令组合预分配的问题。

    G80革命性的MIMD架构

    NVIDIA的科学家对图形指令结构进行了深入研究,它们发现标量数据流所占比例正在逐年提升,如果渲染单元还是坚持SIMD设计会让效率下降。为此NVIDIA在G80中做出大胆变革:流处理器不再针对矢量设计,而是统统改成了标量ALU单元,这种架构叫做MIMD(Multiple Instruction Multiple Data,多指令多数据流)

为王位而生

G80核心架构,每个流处理器就是一个标量ALU

    如此一来,对于依然占据主流的4D矢量操作来说,G80需要让1个流处理器在4个周期内才能完成,或者是调动4个流处理器在1个周期内完成,那么G80的执行效率岂不是很低?没错,所以NVIDIA大幅提升了流处理器工作频率(两倍于核心频率),扩充了流处理器的规模(128个),这样G80的128个标量流处理器的运算能力就基本相当于传统的64个(128×2?)4D矢量ALU。大家应该知道R600拥有64个5D矢量ALU,最终的性能G80要远胜R600。
 
    当然这只是在处理4D指令时的情形,随着图形画面越来越复杂,1D、2D、3D指令所占比例正在逐年增多,而G80在遇到这种指令时可说是如鱼得水,与4D一样不会有任何效能损失,指令转换效率高并且对指令的适应性非常好,这样G80就将GPU Shader执行效率提升到了新的境界!

    MIMD架构的劣势
 
    G80的架构听起来很完美,但也存在不可忽视的缺点:根据前面的分析可以得知,4个1D标量ALU和1个4D矢量ALU的运算能力是相当的,但是前者需要4个指令发射端和4个控制单元,而后者只需要1个,如此一来MIMD架构所占用的晶体管数将远大于SIMD架构!

    所以AMD的SIMD架构可以用较少的晶体管造出庞大数量的流处理器、拥有恐怖的理论浮点运算能力;而NVIDIA的MIMD架构必须使用更多的晶体管制造出看似比较少的流处理器,理论浮点运算能力相差很远。双方走的都是极端路线,AMD以数量弥补效率的不足,而NVIDIA以效率弥补数量的劣势。

0人已赞
第1页:前言:AMD“南方群岛”耀世而出第2页:GPU核心概述:半导体制造工艺之瓶颈第3页:皇位之争:AMD和NVIDIA的“巅峰对决”第4页:Radeon是一款好显卡,但不是颗好GPU第5页:成也微软败也微软:XBOX360阻碍显卡/游戏发展第6页:从X1900XTX谈起:用3:1黄金架构做计算第7页:HD2900XT走向不归路:超长指令集的弊端第8页:HD4870的救赎:暴力扩充流处理器第9页:HD5870的辉煌:在错误的道路上越走越远第10页:HD6870的一小步:双超线程分配处理器第11页:HD6970昙花一现:北方群岛5D改4D返璞归真第12页:GPU的一大步:NVIDIA G80图形架构解析第13页:真正的并行计算架构:GT200只为计算优化第14页:DX11与并行计算的完美结合:GF100/110的野心第15页:HD7970华丽登场:曲面细分性能大幅提升第16页:GCN架构的精髓:流处理器完全重新设计第17页:GCN架构的缓存:和GF100异曲同工第18页:Tihiti其他方面的改进:AMD真是个激进派第19页:GCN架构的真正意义:GPU计算效能大增第20页:浴火重生,新的开始新的期待第21页:呼之欲出:南方群岛全系列发售前瞻第22页:南方群岛应用篇:DDM Audio 解析第23页:南方群岛应用篇:EYEFINITY“2.0”解析第24页:南方群岛应用篇:HD3D技术解析第25页:南方群岛应用篇:AMD APP 加速并行技术第26页:AMD再度领跑:DX11.1规范详解第27页:首测显卡曝光:蓝宝HD7970第28页:首测显卡曝光:迪兰HD7970第29页:首测显卡曝光:镭风HD7970第30页:首测显卡曝光:讯景HD7970第31页:首测显卡曝光:讯景非公版HD7970第32页:首测显卡曝光:双敏HD7970第33页:其他首发显卡曝光汇总展示第34页:六核3960X客串:HD7970鏖战众卡皇第35页:DX10基准测试:《3DMark Vantage》 第36页:DX10游戏性能测试:《孤岛危机》第37页:DX10.1游戏测试:《孤岛惊魂2》第38页:DX11基准测试:《3DMark11》第39页:DX11游戏性能测试:《尘埃3》第40页:DX11游戏性能测试:《战地3》第41页:DX11游戏性能测试:《AVP》第42页:DX11游戏性能测试:《地铁 2033》第43页:DX11游戏性能测试:《孤岛危机2》第44页:曲面细分专项测试:《石巨人》第45页:曲面细分专项测试:《Heaven 2.5》第46页:PhysX特效专项测试:《BatmanAC》第47页:通用计算:纹理压缩/光线追踪第48页:通用计算:流体模拟/蒙特卡罗算法第49页:附加测试:AES加解密/像素纹理填充第50页:附加测试:HD7970功耗最低3W第51页:成绩汇总:HD7970 PK GTX580第52页:成绩汇总:HD7970 PK HD6970第53页:成绩汇总:HD7970 PK HD6990第54页:成绩汇总:HD7970 CrossFire交火效率第55页:成绩汇总:HD7970 超频效能测试第56页:全文总结:架构、效能与应用的全面胜利

关注我们

泡泡网

手机扫码关注