流处理器缘何差6倍！A/N GPU架构解析-泡泡网

泡泡网显卡频道 PCPOP首页 / 显卡 / 评测 / 正文

流处理器缘何差6倍！A/N GPU架构解析

2010年03月01日 00:01作者：孙敏杰编辑：孙敏杰文章出处：泡泡网原创

Cypress已经发布了半年之久，而NVIDIA方面的GF100依然是犹抱琵琶半遮面。GF100核心之所以延期这么久，一方面是因为NVIDIA遭遇了40nm新制程良率不足的困扰，另一方面GF100在核心架构方面的改进非常巨大，NVIDIA力图打造一颗在DX11和GPU计算方面都趋于完美的核心。

● GF100架构改进要点预览

如果说Cypress是“双核心”设计的话，那么GF100的流处理器部分就是“四核心”设计，因为其raster units（光栅化引擎）是以GPC（线程处理器簇）为单位的，一式四份。而raster units的功能就是以流水线的方式执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作。上页我们介绍过Cypress的Rasterizer和Hierarchial-Z双份的，而GF100则是四份的，虽然命名有所不同但功能是相同的。

另外，GF100拥有更多的PolyMorph（多形体引擎），是以SM（流处理器）为单位分配的，拥有多达16组。多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作，DX11中最大的变化之一细分曲面单元(Tessellator)就在这里，因此GF100的理论Tessellation性能将会远超Cypress，因为Cypress只有一个Tessellator单元。

至于流处理器核心部分，则是经过了重新设计，与GT200/G92/G80相比是焕然一新，因此NVIDIA将其称为CUDA核心而不再是流处理器。

GF100的512个CUDA核心都符合IEEE 754-2008浮点算法(Cypress也是如此)和完整的32位整数算法，而后者在过去只是模拟的，事实上仅能计算24-bit整数乘法；同时全面引入的还有积和熔加运算(Fused Multiply-Add/FMA)。此外双精度浮点(FP64)性能大大提升，峰值执行率可以达到单精度浮点(FP32)的1/2，而过去只有1/8，AMD从R600开始到现在的Cypress核心都是1/5，没有做任何变化。

至于显存控制器方面的改进，还有显存ECC等外围功能就不多做介绍了。总而言之，GF100核心是GPU自从进入DX10时代以来，架构变化最大的一次，在GPU图形架构和并行计算架构方面都有了革命性的进步，因此备受玩家和业界期待。现在据可靠消息表明GF100架构的GTX480显卡将在本月26日准时发布，届时我们将会为大家献上全方位的架构分析及性能评测，让我们一同期待吧！■<

1人已赞

第1页：为什么A卡的流处理器要比N卡多很多第2页：管线的由来和传统矢量运算单元的弊端第3页：G80的标量流处理器架构第4页：R600的超标量流处理器架构第5页：G92和RV670：核心架构没有任何变化第6页：GT200架构的变化：重组SM结构第7页：RV770架构的变化：脱胎换骨第8页：RV870架构的变化：双核心设计第9页：GF100架构改进最大，即将发布敬请期待

流处理器缘何差6倍！A/N GPU架构解析

关注我们