强化NPU与异构计算优势 高通开启终端侧生成式AI新体验
生成式AI时代已经到了,在手机、PC以及电动汽车上,我们都能看到生成式AI技术的应用,高通全新推出的第三代骁龙8移动平台以及骁龙X Elite平台都更加强调AI的性能与表现。
日前,泡泡网参加了与高通技术公司产品管理高级副总裁 Ziad Asghar的交流活动,期间Ziad Asghar详细介绍了高通在AI方面的优势。
异构计算带来更优秀的生成式AI体验
生成式AI的多样化要求也带来了计算的多样性,无法通过单一的处理器实现,因此异构计算架构成为新的选择,异构计算架构可以发挥多个处理器的优势,CPU擅长顺序控制和即时性,GPU适合并行数据流处理,NPU擅长标量、向量和张量数学运算,可用于核心AI工作负载。
异构计算能够实现更好的应用性能、能效和电池续航,以最大化发挥生成式AI终端用户体验。
针对异构计算架构,高通打造了高通AI引擎,高通Hexagon NPU、高通Adreno GPU、高通Kryo或高通Oryon CPU、高通传感器中枢和内存子系统。高通AI引擎可以跨所有的处理器组件进行选择,从而更好的发挥产品性能表现。
高通AI引擎中,Adreno GPU是高通自主打造,其拥有业界领先的每瓦特性能。Hexagon NPU也有强大的差异化优势和业界领先的AI处理能力。
于此同时,内存的重要性同样不可忽略,在生成式AI用例中,芯片需要通过内存读取大模型并进行处理。第三代骁龙8等高通产品已经支持业界最为领先的LPDDR5x内存,频率高达4.8GHz,能够支持以非常高速的芯片内存读取速度运行百川、Llama 2等大语言模型,实现非常快的token生成速率,带来领先的用户体验。
在具体工作方面,CPU擅长顺序控制,非常适用于需要低时延的应用场景,CPU也适用于相对较小的传统模型,如卷积神经网络模型(CNN),或一些特定的大语言模型(LLM)。而GPU主要擅长面向高精度格式的并行处理,比如对画质要求非常高的图像以及视频处理。
在AI计算当中,NPU扮演了更重要的角色,高通打造的NPU则具备了行业领先的每瓦特性能,特别是在持续型用例中,需要以低功耗实现持续稳定的高峰值性能,NPU可以发挥其最大优势。在基于LLM和大视觉模型(LVM)的不同用例,例如Stable Diffusion或其他扩散模型中,NPU的每瓦特性能表现十分出色。
此外,高通传感器中枢能够以极低功耗运行始终开启的用例。通过将低功耗AI能力集成到芯片子系统中,芯片能够获取大量终端侧的情境信息,为用户带来个性化的生成式AI体验。这也是终端侧AI的优势之一,传感器中枢获取的信息都会被保留在终端上,不会上传云端,既可以针对用户带来个性化的生成式AI体验,同时也确保和用户相关的信息安全。
Hexagon NPU带来领先的大预言模型处理能力
早在2015年,高通就推出了第—代AI引擎,其中NPU集成了标量和向量运算扩展主要面向包括音频和语音处理的卷积神经网络模型(Convolutional Neural Network,CNN)和长短期记忆网络模型(Long Short-Term Memory,LSTM),以便为用户带来优秀的音频/语音体验。
在随后的2016-2022年之间,高通进步增强NPU的能力,在NPU中增加了张量运算核心(Tensor Core),并引入Transformer层处理,让NPU参与到更多的应用场景当中。在音频及语音的基础上,增加了增强影像的能力,例如暗光拍照、去除噪点以及多帧处理技术的支持。
2023年。NPU的能力得到的大幅加强,高通在NPU中增加了Transformer支持,以更好地处理基于Transformer的模型,让Hexagon NPU实现了对LLM和LVM的支持,高通也认为,Transformer架构将继续在即将推出的许多新模型当中延用。
Hexagon NPU可以实现在终端侧运行高达100亿参数的模型,无论是首个token的生成速度还是每秒生成token的速率都处在业界领先水平。高通还引入了微切片推理技术,增加了能够支持所有引擎组件的大共享内存,以实现领先的LLM处理能力。
在Hexagon NPU的帮助下,第三代骁龙8移动平台的AI能力得到了进一步的加强,在MWC2024期间,高通展示了在第三代骁龙8移动平台上运行的首个大语言和视觉助理大模型(LLaVA),其能够基于图像输入解答用户的相关问题。
同时,基于骁龙X Elite,高通也展示了全球首个在终端侧运行的超过70亿参数的大型多模态语言模型(LMM),可接受文本和音频输入(如音乐、交通环境音频等),并基于音频内容生成多轮对话。
在具体性能表现方面,第三代骁龙8和三款Android以及iOS平台竞品的对比。在鲁大师AIMark V4.3基准测试中,第三代骁龙8的总分分别为竞品B的5.7倍和竞品C的7.9倍。在安兔兔AITuTu基准测试中,第三代骁龙8的总分是竞品B的6.3倍。在MLCommon MLPerf推理的不同子项中,例如图像分类、语言理解以及超级分辨率等,表现都保持领先。
PC端AI性能方面,将骁龙X Elite与其他X86架构竞品进行比较,在面向Windows的UL Procyon AI推理基准测试中,骁龙X Elite在ResNet-50、DeeplabV3等测试中都保持着大幅领先,且基准测试总分分别为X86架构竞品A的3.4倍和竞品B的8.6倍。
得益于强大的AI能力,在PC上无论是运行Microsoft Copilot,还是文档摘要、文档撰写等生成式AI应用,骁龙X Elite都能够为用户提供与其它解决方案相比更为出色的体验。
推动AI发展 为开发者提供便利
AI行业的发展离不开开发者的支持,为了能够帮助开发者更好的打造AI相关的应用程序,高通也提供了完善的开发工具,打造了高通AI软件栈(Qualcomm AI Stack)。
高通AI软件栈支持目前所有的主流AI框架,包括TensorFlow、PyTorch、ONNX、Keras;它还支持所有主流的AI runtime,包括DirectML、TFLite、ONNX Runtime、ExecuTorch,以及支持不同的编译器、数学库等AI工具。
基于高通AI软件栈,开发者可以通过一次开发将软件运用到从智能手机到PC、物联网终端、汽车等等高通所有不同的产品线中,提升了开发的效率。
同时,高通在MWC 2024期间也推出了全新的高通AI HUB,这是为开发者打造的获取开发资源的中心,开发者可以基于骁龙或者高通平台打造AI应用。高通AI Hub为开发者提供全面优化的AI模型库,包括传统AI模型和生成式AI模型,能够支持在骁龙和高通平台上进行部署。
在使用高通AI Hub时,开发者可以选择所需的大模型,高通AI Hub将支持超过75个AI模型,包括传统AI模型和生成式AI模型。例如Baichuan-7B,然后可以选择开发应用所使用的框架,例如例如Pytorch、Tensorflow。下一步开发者可以选择对应的目标平台,可以时某一款手机,也可以是特定型号的高通平台。确定以上信息后,高通AI Hub就可以为开发者提供面向其指定应用、指定平台进行优化的模型。开发者只需要几行代码就可以获取模型,并将模型集成进应用程序。
最后
高通技术公司产品管理高级副总裁 Ziad Asghar提到,随着生成式AI用例的扩展,模型规模越来越大,用户规模也会不断增加,云端处理的成本问题会限制生成式AI的发展。而在终端侧运行AI模型则有巨大的成本优势。
终端侧AI还具备重要的可持续性优势。大规模用户访问云端模型将产生大量的能耗。在云端运行这些AI模型,GPU功耗能够达到上百瓦,此外还需要大量水资源进行散热。而在终端侧运行大模型有显著的能效优势。
目前高通的技术能够支持在终端侧以更高效的方式运行AI模型,真正将这些出色的用例带给消费者。