泡泡网显卡频道 PCPOP首页      /      显卡     /      评测    /    正文

打倒X86!NVIDIA的CPU+GPU战略全解析

    受微软宣布下代操作系统Windows 8将正式支持ARM架构的影响,NVIDIA原本的ARM核心CPU业务范围也将扩大。在3月召开的投资者会议Financial Analyst Day 2011上,NVIDIA总裁兼CEO黄仁勋宣布,Denver的核心将使用未来的Tegra处理器。

谁能挡我?NVIDIA的CPU+GPU方案全解析

NVIDIA的目标是成为"Computing Company"
要实现这一目标CPU业务也是重要的收益来源

    虽然黄仁勋的说法摆在那里,不过看起来Project Denver和Tegra的关系不是那么简单:NVIDIA移动业务总经理Micheal Rayfield称:“Project Denver和Tegra毫无关系”。他说:“用于移动业务的Tegra最注重目标是省电性能,将不会冒进,沿着ARM提供的Roadmap进行SoC开发。”“Kal-El将是Cortex-A9架构四核处理器,Wayne也自然会沿用下一架构。”表明了Wayne将使用Cortex-A15架构。

谁能挡我?NVIDIA的CPU+GPU方案全解析

2011年5月曝光的Project Denver核心示意图

    同时Desai也从另外一方面验证了上述表态:“Project Denver目标是成为面向HPC(高性能计算)的强力CPU核心,不会像Tegra一样考虑省电。”Project Denver究竟目的在哪?

    那么,Project Denver开发的CPU核心究竟是什么样的东西呢?可从2010年11月在美国路易斯安那州新奥尔良市召开的HPC相关技术大会"SC10"上窥见一斑,同时也可从NVIDIA在GTC Workshop Japan 2011上公开的Roadmap中"Echelon"高性能HPC向平台推测出部分内容。

谁能挡我?NVIDIA的CPU+GPU方案全解析

    Echelon计划的来头颇大,主导机关是美国国防部下属的DARPA(国防尖端技术研究开发计划局),目标是在2018年实现ExaScale级别计算能力的超级计算机(UHPC),Echelon的开发受到这一项目的经费资助。DARPA资助经费的规定为,在2014年前完成Phase1阶段的开发,即设计完成硬件部分,同时要报送DARPA审查。

谁能挡我?NVIDIA的CPU+GPU方案全解析

Echelon模块图解

    NVIDIA首席科学家Bill Dally在SC10大会上的演讲内容中透露,Echelon为128个SM模块和Project Denver的基础——名为Latency Processor的8个CPU核心所组成,其中每个SM模块含有8个CUDA Core和独立的L0 Cache。据此计算,Echelon芯片整体含有8*128=1024个CUDA Core。

谁能挡我?NVIDIA的CPU+GPU方案全解析

Echelon由128个SM模块和8个Latency Processor组成,后者就是Denver的核心

    各个SM模块独立命名为"NoC"(Network on Chip)通过内部界面,经由L2 Cache和内存控制器与其他SM相互连接。L2 Cache和CUDA Core数量一样分1024块,单个Echelon芯片中,NoC通过MC与一同封装的DRAM Cube连接带宽可达1.4TB/s。

谁能挡我?NVIDIA的CPU+GPU方案全解析

内存和每个Echelon的MCM Node在同一封装内相连,带宽可达1.4TB/s

    Echelon芯片的峰值计算性能(以双精度浮点运算记)可达20T FLOPS。NVIDIA设想的每个Echelon机柜搭载32个模块,每个模块封装4个Echelon芯片,这样单个机柜的运算能力可达2.56P FLOPS。Echelon的Phase1(第一阶段)设计就是如此,NVIDIA将在此基础上第二阶段主要考虑继续提高运算性能和降低芯片所消耗的电力。

谁能挡我?NVIDIA的CPU+GPU方案全解析

每个Echelon机柜由128个Node(即单Echelon芯片)组合而成
实现2.56P FLOPS的计算能力,功率38千瓦

谁能挡我?NVIDIA的CPU+GPU方案全解析

400个机柜即可实现Exa级别的计算,功率约150万瓦

    为了配合UHPC一期开发阶段制造Echelon工程样品的需要,2013年前需要完成Latency Processor即Project Denver的CPU核心开发工作。

0人已赞

关注我们

泡泡网

手机扫码关注