泡泡网显卡频道 PCPOP首页      /      显卡     /      评测    /    正文

HD7970脱胎换骨全测试!5年架构大革命

第二章/第三节 从X1900XTX谈起:用3:1黄金架构做计算

    下面我们就来看看R580的核心架构,也就是当年的王者X1900XTX/X1950XTX所使用的GPU,后来次高端RV570核心(X1950Pro)的架构也类似。

图形与计算那些事 AMD次世代架构解析

R580:8个顶点着色单元、48个像素着色单元、16个纹理单元

    DX9C显卡还没有统一渲染架构的概念(XBOX360的Xenos是个特例),所以R580依然是顶点与像素分离式的设计。当时的GPU核心部分被称为管线,比如7800GTX拥有24条像素渲染管线,但X1900XTX却不能称为拥有48条像素渲染管线,因为它的像素与纹理单元数量不对等。

    GPU的工作原理:

图形与计算那些事 AMD次世代架构解析

    显卡的渲染流程是通过顶点单元构建模型骨架,纹理单元处理纹理贴图,像素单元处理光影特效,光栅单元负责最终的像素输出。

    GPU的管线是什么:

    在R580之前,GPU的像素单元与纹理单元还有光栅单元是绑定在一起的,数量一样多,整个渲染过程就是流水线作业,因此像素与纹理加起来称为一条管线。

    什么是3:1架构?

    R520核心(X1800XT)的像素与纹理都是16个,但R580核心在纹理单元维持16个不变的情况下,把像素单元扩充了3倍达到了48个之多。ATI研发工程师发现新一代游戏中使用像素着色单元的频率越来越高,各种光影特效(尤其HDR)吃掉了像素着色单元的所有资源,而纹理单元的负载并不高,继续维持像素与纹理1:1的设计就是浪费资源,于是ATI根据3D游戏引擎的发展趋势做出了改变,并把R580这种不对等的架构称之为3:1黄金架构,管线的概念至此消失。

图形与计算那些事 AMD次世代架构解析

像素(算数)与纹理的比例逐年提高

    当年ATI前瞻性的架构在部分新游戏中得到了应验,比如在极品飞车10、细胞分裂4、上古卷轴4等游戏中X1900XTX的性能远胜7900GTX。此外ATI专为HDR+AA优化的架构与驱动也让ATI风光无限。

    但事实上,从1:1大跃进到3:1有点太激进了,在包括新游戏在内的绝大多数主流游戏中,都无法充分利用多达48个像素着色单元的能力。于是ATI的工程师们又有了新的想法:何不用这些像素单元来做一些非图形渲染的计算呢?像素单元的核心其实就是ALU(算术逻辑单元),拥有十分可观的浮点运算能力。

    蛋白质折叠分布式计算开启GPU计算大门:

    2006年9月,在X1900XTX发布半年之后,ATI与斯坦福大学相关科研人员合作,开发了首款使用GPU浮点运算能力做非图形渲染的软件——Folding @ Home第一代GPU运算客户端。

    Folding@home是一个研究蛋白质折叠、误折、聚合及由此引起的相关疾病的分布式计算工程。最开始F@H仅支持CPU,后来加入了对PS3游戏机的支持,但同样是使用内置的CELL处理器做运算。F@H因ATI的加入为GPU计算翻开了新的一页,当然F@H加入了对NVIDIA DX10 GPU的支持那是后话。

    什么是通用计算?

    当时的GPU计算被称为GPGPU(General Purpose GPU),传统的图形处理器可以被用来做通用目的计算项目。所谓通用计算的大体流程就是:待处理的数据—〉转换成图形数据—〉GPU处理—〉处理后的图形数据—〉转换成所需数据。其实通用计算就是把数据转换为GPU能够“看懂”的图形数据,实际上是作为虚拟硬件层与GPU通讯,由于需要前后两次编译的过程,因此想要利用GPU强大的浮点运算能力,需要很强大的编译器,程序员的开发难度可想而知,CPU的运算量也比较大。

图形与计算那些事 AMD次世代架构解析

    除了蛋白质折叠分布式计算外,当年ATI还开发了AVIVO Video Converter这款使用GPU加速视频转码的小工具,虽然效果一般,但也算是开了个好头。

    虽然GPU通用计算的实现难度很大,但至少GPU实现了非图形计算的目的,而且其性能确实要比当时的CPU快十几倍。小有所成的ATI被胜利冲昏了头脑,他们认为自己研发出了最先进的、最有前瞻性的GPU架构,还找到了让GPU进行通用计算的捷径、还有了AMD这座靠山……最终促使AMD-ATI做出了保守的决定——下代GPU继续沿用R580的架构,不做深层次的改动。

0人已赞
第1页:前言:AMD“南方群岛”耀世而出第2页:GPU核心概述:半导体制造工艺之瓶颈第3页:皇位之争:AMD和NVIDIA的“巅峰对决”第4页:Radeon是一款好显卡,但不是颗好GPU第5页:成也微软败也微软:XBOX360阻碍显卡/游戏发展第6页:从X1900XTX谈起:用3:1黄金架构做计算第7页:HD2900XT走向不归路:超长指令集的弊端第8页:HD4870的救赎:暴力扩充流处理器第9页:HD5870的辉煌:在错误的道路上越走越远第10页:HD6870的一小步:双超线程分配处理器第11页:HD6970昙花一现:北方群岛5D改4D返璞归真第12页:GPU的一大步:NVIDIA G80图形架构解析第13页:真正的并行计算架构:GT200只为计算优化第14页:DX11与并行计算的完美结合:GF100/110的野心第15页:HD7970华丽登场:曲面细分性能大幅提升第16页:GCN架构的精髓:流处理器完全重新设计第17页:GCN架构的缓存:和GF100异曲同工第18页:Tihiti其他方面的改进:AMD真是个激进派第19页:GCN架构的真正意义:GPU计算效能大增第20页:浴火重生,新的开始新的期待第21页:呼之欲出:南方群岛全系列发售前瞻第22页:南方群岛应用篇:DDM Audio 解析第23页:南方群岛应用篇:EYEFINITY“2.0”解析第24页:南方群岛应用篇:HD3D技术解析第25页:南方群岛应用篇:AMD APP 加速并行技术第26页:AMD再度领跑:DX11.1规范详解第27页:首测显卡曝光:蓝宝HD7970第28页:首测显卡曝光:迪兰HD7970第29页:首测显卡曝光:镭风HD7970第30页:首测显卡曝光:讯景HD7970第31页:首测显卡曝光:讯景非公版HD7970第32页:首测显卡曝光:双敏HD7970第33页:其他首发显卡曝光汇总展示第34页:六核3960X客串:HD7970鏖战众卡皇第35页:DX10基准测试:《3DMark Vantage》 第36页:DX10游戏性能测试:《孤岛危机》第37页:DX10.1游戏测试:《孤岛惊魂2》第38页:DX11基准测试:《3DMark11》第39页:DX11游戏性能测试:《尘埃3》第40页:DX11游戏性能测试:《战地3》第41页:DX11游戏性能测试:《AVP》第42页:DX11游戏性能测试:《地铁 2033》第43页:DX11游戏性能测试:《孤岛危机2》第44页:曲面细分专项测试:《石巨人》第45页:曲面细分专项测试:《Heaven 2.5》第46页:PhysX特效专项测试:《BatmanAC》第47页:通用计算:纹理压缩/光线追踪第48页:通用计算:流体模拟/蒙特卡罗算法第49页:附加测试:AES加解密/像素纹理填充第50页:附加测试:HD7970功耗最低3W第51页:成绩汇总:HD7970 PK GTX580第52页:成绩汇总:HD7970 PK HD6970第53页:成绩汇总:HD7970 PK HD6990第54页:成绩汇总:HD7970 CrossFire交火效率第55页:成绩汇总:HD7970 超频效能测试第56页:全文总结:架构、效能与应用的全面胜利

本文产品

蓝宝石 HD7970 3G

更多产品信息>>
接口类型:PCI Express X16 3.0核心代号:Tahiti XTAMD芯片:Radeon HD7970核心频率:925MHz显存类型:GDDR5显存容量:3GB

泡泡网

手机扫码关注