迎接开普勒第一弹：最强GPU最全爆料!-泡泡网

泡泡网显卡频道 PCPOP首页 / 显卡 / 评测 / 正文

迎接开普勒第一弹：最强GPU最全爆料!

2012年03月06日 00:00作者：蒋尚文编辑：蒋尚文文章出处：泡泡网原创

泡泡网显卡频道3月6日 “2012.1.9日注定成为显卡发展史上光辉的一天。这一天过后，全世界的骨灰玩家们不用再为选择GTX580还是HD6970而发愁了。脚踩28nm祥云，手持DX11.1利剑，2048sp的HD7970如约而至，发出的却不是高端显卡司空见惯的怒吼，而是沁人心扉的天籁梵音！”这是小编撰写HD7970首测时的开场白。说句实话，目前来看HD7970凭借台积电28nm工艺所带来的低功耗和高频率，确实是无敌真寂寞，性能效率完全和上一代40nm显卡明显拉开了距离！

紧接着，AMD的中高端HD7800发布，中端主力HD7700发布，凭借着全新GCN架构及28nm制造工艺的出色发挥，NVIDIA热卖产品相继被斩落马下，这完全是一场不对等的比赛，毕竟是不同工艺、不同架构的两代产品。由于NVIDIA迟迟未能发布新一代产品，一些原本意志不太坚定的Nfan开始表现出移情别恋的迹象。两地分居时间长了还离婚呢，这传说中最接近神卡的开普勒你是等呢，还是不等呢？

这个对于媒体来说讳莫如深的敏感话题在这个山雨欲来的敏感时期还真是介于不说憋屈，说了矫情之间，其中最最关键的问题就是HD7000系列显卡理想中的对手“开普勒”现在还是千呼万唤全遮面，虽然云里雾里的消息的爆出了不少，但真实性都令人怀疑。国外网站频频爆出了开普勒各种规格以及售价及发布日期等信息，但都真假难辨，小编今天综合各种消息，结合对显卡的理解，毅然决定来一个开普勒全系列大预测。

说对了，请鼓鼓掌！万一说错了，也非刻意为之，也请鼓鼓倒掌~

根据此前的某些爆料，NVIDIA将会跳过GTX 600系列产品直接推出GTX 700，不过目前来看这种说法是错误的。开普勒系列产品使用台积电28nm工艺制造，直接对手就是AMD的HD 7000系列。其中看来最正常，最全面，最靠谱的基本就是下面的规格了。

开普勒系列最高端为双芯产品GTX690，采用两颗GK110核心，因此核心面积达到了比较独特的1100mm2，共拥有2048个流处理器，64个光栅单元与112个纹理单元。搭载3.5GB的GDDR5显存颗粒，默认频率为850/5000MHz。显存位宽2×256bit。

单芯旗舰产品GTX680将采用GK110核心，拥有1024个流处理器，32组SM、64组ROP，核心面积640mm2，搭载2GB的GDDR5显存，核心显存频率为850/5500MHz。

GTX670也采用了GK110核心，不过流处理器被阉割至896个，拥有28组SM、56个ROP，核心面积还是640mm2，核心显存频率为800/5000MHz。

GTX660Ti采用了GK104核心，流处理器512个，拥有24组SM、48个ROP，核心面积是320mm2，核心显存频率为1024/5500MHz，显存规格为2GB/256bit。

GTX660采用了GK104核心，拥有与GTX570相同的448个流处理器，16组SM、32个ROP，核心面积320mm2，核心显存频率为900/5500MHz，显存规格为1GB/256bit。

史上最全爆料！NV开普勒显卡全面解析

传说中的GK104核心完全体？

以上产品与HD 7900系列显卡一样都支持PCI-E 3.0标准，如果本次消息属实的话，开普勒将不会让大家失望，对HD 7000做出最有力的反击。虽然出来的晚了点，但是却能够全面领先对手产品。

胡诌指数：★★★★；

根据爆料，GTX 680在性能方面将会强于HD7970 20%左右，售价为649美元，发布时间3月下旬；

GTX 670将比HD7950性能强10%，售价499美元，发布时间是4月；

GTX 660 Ti将会与目前的GTX 580差不多，售价399美金，发布时间大约在第二季度；

GTX 660性能与目前的GTX 570类似，售价319美元，发布4月；

GTX 650 Ti性能与目前的GTX 560Ti类似，售价249美元，发布时间与GTX 660 Ti一致；

GTX 650性能与目前的GTX 560持平，售价179美元，发布时间4月；

GTX 640性能与目前的GTX 550 Ti持平，售价139美元，发布时间4月。

至于双芯产品GTX 690，现在只知道发布时间在第三季度，售价及性能都是未知数。入门级产品的规格及售价也都没有公布，根据命名来看无非是GT 630/620/610，发布时间q3。

售价一般都是最后敲定，除非是NVIDIA高层重大爆料，否则没有必要早早透露，而且如此性能如此便宜让我有点不敢相信，大家YY一下就好。

胡诌指数：★★★★；

继前不久首张基于GK107的显卡PCB设计图曝光后，今日来自Youtube的会员上传了首张Kepler的测试视频，数据显示GK107显卡虽然定位入门级，不过产品性能已然上升到主流级别，3DMark 11得分直达P3818。

这位来自Kepler的用户详细的测试了GK107显卡性能，测试工具包括了主流的3DMark 06、3DMark Vantage、3DMark 11和《生化危机5》Benchmark。

不管是哪个规格传言，但是性能暴增已成定局。GK104作为kepler的次高端核心，究竟能否秒杀HD7970？

上面是一张来自NVIDIA官方的PPT，横轴显然代表时间，纵轴上赫然写着DP GFLOPS Per Watt，翻译成中文就是每瓦运算能力，或者能效比。如果说Fermi理论计算能力是2008年T10核心的1.6倍左右的话，Kepler则高达5倍左右。即至少是Fermi的3倍！

显而易见，这里的Kepler指的是GK110核心，上文说过它是一个拥有1024个流处理器，32组SM、64组ROP，核心面积550mm?的怪兽，所以推算出来的耗电量应该比529mm?的Fermi只多不少。

那现在我们做个比较合情合理的假设——Kepler和Fermi功耗相同。那我们会得出这样的结论——Kepler的理论计算性能是Fermi的3倍！

当然这只是理论性能的推算，在具体游戏性能方面依然会有出入，毕竟对不同游戏的优化支持和游戏引擎本身更适合于那种架构对结果的影响还是蛮大的。但是小编则保守的估计：GK110对应的显卡性能必然强于HD7970，但是GK104则会弱一些……

胡诌指数：★★；

从最初的几百万到现在的几十亿晶体管，GPU成为了电脑内部最复杂的芯片，也是运算能力最强的处理器。

但作为电脑内部最为复杂和重要的配件之一，显卡同样是功耗最大和最不好伺候的配件。不知道从什么时候开始，主板供电满足不了显卡的胃口了，外接供电成了高级显卡的象征，从4Pin、6Pin、8Pin到6+6Pin、6+8Pin。电源也从当初的额定200w够用到现在的400w以下捉襟见肘。

热设计功耗的不断攀升让显卡越来越费电，体积越来越庞大，废热也越来越多，进而引起噪音的肆虐。AMD HD7970虽然在能效比上超出上代显卡很多，但就功耗绝对值来说依然增加了不少，NVIDIA GK110如果规格真是如此之强大，性能又是如此之卓越，那耗电量绝对是个大问题！

那功耗发热的问题如何解决？其实有些厂家早就有成熟的方案推出。其中最为杰出的当属GTX 560 Ti HOF显卡，这款显卡在供电部分采用了CHiL+IR3550M DrMOS的组合。供电PWM型号为CHL8266，支持6相供电管理，开关频率达1MHz，为模拟PWM的3倍以上。而且在轻负载会动态调整至1-2相供电，是目前最主流的数字供电解决方案。

影驰GeForce GTX 560 Ti HOF

配合IR公司新推出IR3550M PowIRstage Dr MOS，6相最多提供360A电流输出，最高能够支持400W功耗的显卡稳定运行，简化大电流以及高性能的多相运作设计，15A电流下转换效率高达95.7%。与常规单项PWM电路最高的30A相比和87%左右的转化率，影驰名人堂显卡所配的元件无论是转换效率还是最大电流都明显领先。

更高的转换效率意味着更低的功耗，意味着更低的发热和噪音、更长的使用寿命、更小的电源压力，开普勒既然不可能为了降低功耗而牺牲太多性能，那最大可能就是在供电方面做文章。

至于旗舰之外的高端产品，5+2相供电设计足矣。外接供电部分采用2个6pin PCI-E或者6pin PCI-E + 8pin PCI-E。

另外GK104可能会采用双SLI桥以方便多卡SLI，看来NVIDIA势要将GK104作为高端产品来推广。而现实输出方面NVIDIA终于加强了设计，2个DVI接口、1个HDMI和1个DisplayPort接口，为三屏输出埋下伏笔。

接下来一张实物图帮助我们更加清楚的了解了这款产品的具体规格，显卡核心采用了外露式设计，这在NVIDIA大核心方面尚属首次，另外8颗显存让我们进一步确认显卡采用了256Bit显存位宽设计。

长久以来，高端A卡公版都使用了数字供电，深受Afan的喜爱和推崇，非公版则普遍缩水，与之相反N卡公版稍显不足，却涌现出很多超公版产品，这次NVIDIA寄予厚望的年度重磅产品开普勒是否会使用全数字供电而减小电源不能承受之重呢？

胡诌指数：★★★

各大论坛最近有这么一种说法，NVIDIA新一代产品将完美支持3屏输出！下面我们粗略的分析一下这种说法的可信度。

在2009年之前，多屏输出还是一个和家用电脑风马牛不相及的专业术语。虽然当时Matrox和NVIDIA/ATI都在专业2D领域拥有四头甚至多头输出的解决方案，但这些技术都只在专业显卡领域生存，在消费级市场上空白一片。

后来Matrox努力推行三头输出技术？终于在之前DualHead2Go的基础上，成功的研发了三头输出的TripleHead2Go，中文名称为3D环幕仪。Matrox带来的3D环幕仪能够像变魔术一样让一个显卡的输出口扩展为三个，由此实现三屏幕环幕游戏或者是四屏幕专业作图显示。

但ATI拿出了惊人的设计方案，在首颗DX11 GPU RV870当中直接集成了一个6通道的显示控制器以后，这种产品就销声匿迹了。HD5870无需任何外接芯片或者输出方案，核心六个通道都能支持2560x1600分辨率的10bit色显示！
（普通版本因为要集成两个Dlink DVI，所以只支持3屏）。AMD管这个方案称之为Eyefinity，中文宽域。

一晃就是三年过去了，人家AMD Eyefinity都2.0了，但因为专利的约束，NVIDIA到现在位置依然没有属于自己的多屏技术，在最新的Fermin产品中虽然可以实现3屏，但必须借助双卡。理由是目前单卡性能不足，单卡3屏意义不大。

果真是这样么？在Dirt3等最新游戏中，现在的高端显卡也可以毫不费力的带动1080PX3分辨率+全特效运行。这个理由显然是站不住脚的。

倒是旗舰一些终端显卡合作厂商们有点耐不住寂寞了。比如说影驰，素以玩家需要为指向，技术科研实业为基础的影驰就在多屏方面的有着自己的优势。推出了自己的“Eyefinity”技术N卡。

1111

影驰GTX570四星黑将显卡搭配了3个DVI-D、1个DVI-I和一个Mini HDMI接口输出，能够轻松实现两屏、三屏以及四屏不同需求的输出。搭配IDT出品的VMM1403芯片，可以为显卡提供另外3个DVI-D输出接口。芯片会将1个Dual link DVI分为3个Single link DVI输出接口。单就这个芯片来看，其扩展模式下最高可支持5760x1080（50Hz）分辨率，也就是说每个显示器最高分辨率刚好为1920x1080（50Hz）。

这本是一个题外话，但证明了两点：

1、类似Eyefinity的技术，并不是多余或者可有可无的。

2、Eyefinity作为3年前就成熟了的技术，显卡厂商可以实现，NVIDIA想要支持也难度不大。

其次，显卡技术多了不一定都用的上，但少了竞争对手无限夸大，揪着不放。一向心高气傲的NV已经忍了三年了，怎能继续退缩？所以开普勒支持多屏显示技术，这一传闻的可信度比较高，究竟成与不成，就看专利地雷是否可以成功绕开了。

胡诌指数：★★；

架构方面，开普勒会有什么变化？

Tahiti的GCN架构和沿用多年的VLIW架构相比，可谓面目全非了。

Tahiti彻底抛弃VLIW架构

通过Tahiti的整体架构图我们看到，传统的SIMD流处理器阵列消失了，取而代之的是GCN阵列，Tahiti总计拥有2048个流处理器，这样每个GCN阵列里面拥有64个流处理器。现在来看看GCN阵列的微观结构。

GCN与GF100的SM何其相似

Tahiti的GCN阵列微观结构

GCN阵列里有4组SIMD单元，每组SIMD单元里面包括16个流处理器、或者说是标量运算器。GCN架构已经完全抛弃了此前5D/4D流处理器VLIW超长指令架构的限制，不存在5D/4D指令打包-派发-解包的问题，所有流处理器以16个为一组SIMD阵列完成指令调度。简单来说，以往是指令集并行，而现在是线程级并行。

GF100的SM（流处理器簇）微观结构

可以这么理解，一个GCN阵列与GF100当中的一组SM相当，GF100的一组SM当中有4组共计32个流处理器，而Tahiti的一组GCN当中有4组共计64个流处理器。

在流处理器部分，终于不用费劲的把AMD和NVIDIA GPU架构分开介绍了，因为GCN与SM已经没有本质区别。剩下的只是缓存容量、流处理器簇的数量、线程调度机制的问题，双方根据实际应用自然会有不同的判断，自家的前后两代产品也会对这些数量和排列组合进行微调。

在流处理器部分，我们看到Tahiti与GF100如此相似，那么接下来看到缓存设计时，您可能会要惊呼了……看图说话：

Tahiti的缓存结构

最直观的，Tahiti有一个容量为768KB二级缓存，这个容量与GF100的L2完全相同，都可以进行读写操作。

架构方面AMD的浮点性能游戏性能一直不错，通用计算方面则比较落后，反之NVIDIA最需要改进的就是对游戏性能影响很到的单精度浮点计算能力。总的来说NVIDIA的CUDA核心被AMD借鉴了个八九不离十，而AMD的三屏，公版数字供电很有可能在开普勒身上看到，趋势显而易见——两大显卡巨头，在竞争的同时一直在互相模仿，取长补短。

有消息说GK104的单精度浮点效率0是Fermi的1.5-2倍，请注意这是效率，如果没有架构的真正革新，是不会有如此之大的提升的。又有小道消息说GK104居然会有1536流处理器！大家知道GF110才有512 CUDA核心，即便是28nm工艺也无法集成这么多的传统CUDA核心！

既然AMD都借鉴NVIDIA的架构了，NVIDIA会不会也来个拿来主义？这次开普勒是否会借鉴AMD的架构优点而弥补自身的缺点？或者之前流传的规格都是错的，小道消息才是正解？架构方面NVIDIA之开普勒身上会不会有AMD架构的影子？

也许上面的预测比较大胆，但有一点现在基本可以确定，ALU（Pixel Shader）规模的大幅放大以及分频方案的放弃了。天下大势合久必分分久必合，因为合有合的道理，分有分的原因。当初的G71核心中，NV首次将ALU频率和核心频率分开，之后的G80开始ALU频率可以自由设定，到GT200的固定倍频，最后GF100ALU频率是核心双倍。

这些其实都是综合考量当时的游戏和硬件需求而设计的。

　　在Fermi时代双倍频设计让NV得以用30%的ALU规模达成了60%的吞吐总量。节约了宝贵的晶体管强化周边缓冲资源。

但ALU的频率也不是没有极限的，一方面过高的ALU运行频率造就更高的局部发热，另一方面核心频率无法运行在更高的水平。当工艺改进，核心频率可以攀登更高水平的时候，弃用分频技术也是情理之中。

胡诌指数：★★★；

一如其在DX10.1上的率先支持一样，HD 7970的发布也让AMD再一次在DX规格支持上获得领先。

GCN架构图中明确指示说支持“下一代图形API”，也就是DX11.1了

●　DX11.1升级了什么?

　　从小数点后的步进来看，DX11.1只是一次版本上的小步快跑而非大步飞跃，所以不会有什么激动人心的功能变化，但是这不代表DX11.1没有亮点，相反DX11.1的看点还是挺多的。

　　1.加入3D立体支持

　　DX11发布后的这两年，DX图形技术没啥变化，但是伴随3D电影兴起的3D游戏也火了起来，体验过3D游戏之后大多数人都会觉得很震撼(也有人觉得很晕)，栩栩如生的感觉不再是“科幻”。DX11.1很重要的一点改进就是增加了D3D 3D API，可以让开发者通过D3D实现3D渲染。

微软提供通用3D立体显示支持可谓DX11.1众多新功能中最耀眼的一个了

　　之所以这么说是因为目前实现3D立体显示的技术要么是部分绕过D3D API而使用四倍缓冲器(Quad Buffer)实现3D游戏或应用，要么就是利用驱动/中间件实现的。在DX11.1中，3D渲染可以通过新增的D3D API实现，而且微软的D3D 3D API并非排他性的，依然支持其他驱动/中间件方案。换句话就是DX11.1之后，开发者多了一个实现3D的选择。

　　2.支持TBDR渲染

　　TBDR(Tile Based Deferred Render，延迟渲染贴图)也是DX11.1中新增的一个操作指令。它原本是Power VR公司使用的3D渲染技术，主要用在智能手机以及平板、游戏机等设备上。与传统z缓冲的渲染过程相比，TBDR不需要渲染不可见像素，这样极大地减少了数量运算量，非常适合移动设备使用。

　　这项技术对桌面图形计算来说并没有太大意义，只是DX11.1并不只会用在桌面显卡上，还承载着微软扩张移动领域疆土的希望，TBDR依然是DX11.1中的重要功能，低功耗设备的福音。

　　3.TIR目标独立光栅化

　　TIR(Target Independent Rasterization，目标独立光栅化)的功能要求有所不同，因为前面的两项技术只需升级DX11.1运行时程序即可，而TIR却需要更改硬件设计，因此只有新一代显卡才能支持，无法在原有显卡上直接升级。

　　Rasterization光栅化是图像处理的后期过程，DX11.1支持目标独立光栅化，可以将原本CPU负责的工作完全转移到GPU上，进而提高D2D的抗锯齿性能。

　　4.支持双精度浮点运算

　　双精度浮点运算(Double-precision shader functionality)或者叫FP64不仅在GPU计算上意义非凡，在图形渲染中也大有用武之地。虽然DX11中其实已经包含了FP64双精度支持，但是功能有限，DX11.1中才真正实用化。

　　5.图形与视频之间的操作性更灵活

　　DX11.1强化了图形、视频等各种资源之间的操作灵活性，比如计算渲染器(Compute Shader)可以通过Media Foundation处理视频(video)，并将以前的D3DDX9、D3DX10视频处理全部统一到D3DX11中去，可以简化编程，提高效率。

● 开普勒将支持DX11.1?

　　微软之前称DX11.1将伴随Win8一起发布，不过Win8开发者预览版上还是DX11，至少也要等到Win8 beta或者正式版发布了。虽然现在Tahiti已经在硬件层面上提供了DX11.1的支持，但目前还没有一个基于DX11.1的游戏或者demo，那开普勒会和AMD一样积极响应微软的号召么？

DX11.1走向实用还要等Win8发布之后

　　简单来说，DX11.1相对DX11只是一次优化升级，但是从DX10到DX10.1性能有提升的经验来看，DX11.1可能也有小小的惊喜，即便画质上没有提高，性能也会因效率的提高而受益多多。

　　综上来看，DX11.1虽然只是显卡架构升级中的小甜点，不能当成大餐，不过甜点也有自己独特的味道，就看厂商如何应用了。从DX6刚兴起AGP显卡开始，NVIDIA就是微软的亲密合作伙伴和忠实的拥护者，直到DX10.1的时候NVIDIA不甘心处处唯微软马首是瞻，让AMD夺得先机，后来又不得不低调加入支持。综上所述，这次既然是全新架构，直接支持DX11.1可能性较大。

胡诌指数：★★★；

　　虽然cho此前已经表示GK110和Tahiti根本不是一个档次上的东西，但他在某帖评论中称桌面版GeForce GTX 6X0将会采用GK110核心的阉割版，完整版的看来仍将首发在Tesla/Quadro等HPC/工作站应用中。这种说法简直就是Fermi发行时情况的复刻，可信度又有多高呢？

AMD的“南方群岛”(Southern Islands)、NVIDIA的“开普勒”(Kepler)都确定会使用台积电28nm新工艺，但因为工艺成熟度、发布策略的方面的原因，又不是完全相同的28nm工艺。

最开始的时候，两家自然都想使用28nm HKMG HP高性能版本，但可惜台积电不太争气，这种工艺仍然很不成熟，基本上要到2012年第一季度才能就绪。

AMD显然等不了那么久，于是转而采用另外一个版本：28nm HKMG HPL。这种工艺同样使用了HKMG(高K金属栅极)技术，兼顾高性能与低功耗特点。报告显示，首批投入台积电新工艺怀抱的Xilinx Kintex-7 FPGA芯片使用的正是这种版本。

其实台积电28nm工艺还有第三种版本28nm SiON LP，是真正的低功耗工艺，也没有了HKMG，而是继续使用上代40nm工艺中的SiON绝缘层，只适合那些功耗很低的小型芯片。

NVIDIA开普勒因为核心面积较大、架构相对复杂、整体功耗偏高等因素，仍然不得不继续等待28nm HKMG HP高性能工艺，再加上传闻中性能未达预期水准，推迟到2012年上半年发布就很自然了。而这种难度更高的工艺势必会造成更多的麻烦，良品率自然不会高，这样的情况下就必须在速度和性能之间做出抉择，现在南方群岛已经抢先一步推出，NVIDIA自然倍感压力，那么有两种可能性：

1、在Fermi上已经吃了亏，为何NVIDIA依然要选择相比而言较为不成熟的28nm HKMG HP高性能版本？很可能是因为在这方面的科研已经有了实质性的突破，NV和台积电有把握稍微于AMD拿出完美的产品。

2、NVIDIA为了在28nm这一代占据更大的优势，后发制人让AMD无力反击。宁可在初期失去先机，即便晚一点也在所不惜。

如果cho纯属扯淡，是第1种原因，那开普勒应该不会有一而再的跳票，也不会将一代产品拉开那么长的发布周期，从年初，到年末甚至明年才全线推出。所以第二种情况的可能性比较大，为了在速度和质量上取得非常好的平衡点，NVIDIA很有可能故技重施，首批命名不怎么激进的GTX680很可能是不完美的核心，而下一代GK110才是类似于GF110一样真正完美的核心！

胡诌指数：★★★★；■<

0人已赞

迎接开普勒第一弹：最强GPU最全爆料!

关注我们