者 | 王启隆
责编 | 唐小引
北京时间 2 月 22 日,半导体巨头 Arm 更新了 Arm? Neoverse? 产品路线图,宣布推出两款基于全新第三代 Neoverse IP 构建的全新计算子系统(CSS):Arm Neoverse CSS V3 和 Arm Neoverse CSS N3。
Arm Neoverse CSS V3 是首款高性能 V 系列 CSS 产品,与前代产品 CSS N2 相比,单芯片性能提升可达 50%。
Arm Neoverse CSS N3 是 N 系列 CSS 产品的最新拓展,相较于 CSS N2,其每瓦性能提升了 20%。
Arm 高级副总裁兼基础设施事业部总经理 Mohamed Awad 指出:“Arm 构建了全球应用最为普及的 CPU 架构,在多个领域的技术革新中发挥主导作用,尤其在智能手机产业中占据核心地位。随着 AI 渗透到教育、就业、制造、医疗和交通等领域,AI 正在改变经济发展和我们的日常生活,而 Arm 是这一切变革的基石。”
Arm? Neoverse? 这条产品线是 Arm 专为基础设施应用市场设计,进入 AI 时代之后,其应用范围从最初的应用服务器和数据中心拓展到了网络、安全和存储等诸多领域,在整个基础设施领域发挥着关键作用。
在如今 OpenAI 强势领衔,NVIDIA 叱咤风云的这段 AI 加速增长期,我们可以通过解读此次产品路线图的更新,一览 Arm 这位“老大哥”对计算技术界的未来布局。
这是一种非常紧密的合作关系。尤其是在 Arm 推出了 Neoverse CSS 之后,定制芯片变得更迅速,且更易实现。微软的 Cobalt 100 CPU 就是一个经典的合作案例。从头部云服务提供商到初创公司,Neoverse CSS 被广泛应用来推动更高的创新发展。
不难想象,这构成了一个极其强大的生态系统。
去年十月,Arm 在Neoverse CSS 的基础上,进一步推出了 Arm 全面设计 (Arm Total Design) 生态项目,集结了半导体产业中的芯片设计伙伴、IP 供应商、EDA 工具提供商、代工厂和固件开发商等各方力量,围绕 Arm 计算子系统(CSS)开展协同创新和系统开发工作。
通过路线图的协同和技术整合,Arm 还设立了专业技术中心来缩短上市时间并降低成本,助力合作伙伴更高效地开发基于 Neoverse CSS 的定制芯片。
在计算机发展的早期,IBM 垄断了大型机市场,拥有自己独特的硬件和软件体系结构。然而,一些公司(Amdahl、Fujitsu 和 Hitachi)决定挑战 IBM,试图制造与其大型机兼容的计算机。最终 IBM 通过保持技术领先和市场份额,还是成功抵御了这些竞争者的挑战。这就是所谓的“大型机克隆战争”。
在这个 AI 时代,比起掀起新一轮的硬件战争,Arm 选择带头团结这些力量,立志使人工智能变得无处不在,并在网络安全领域为从芯片到云端的数字世界奠定信任的根基。
其中也包括我们熟知的头部企业,如台积电、Intel 和三星。还有开发者们耳熟能详的云原生计算基金会(CNCF)毕业项目,也原生支持 Arm 架构。
目前,在短短四个月内已有超过 20 家企业加入 Arm 全面设计项目,涵盖新的 EDA 和配套 IP 提供商,以及来自韩国、中国台湾、中国大陆和印度等具有巨大发展潜力的战略市场的芯片设计公司。他们均致力于确保高性能、高效率解决方案的广泛可触及性,助力满足 AI 加速未来的计算需求。
此外,基于 Arm 全面设计生态伙伴的反馈意见,Arm 近期还发布了芯粒系统架构 (Chiplet System Architecture, CSA)。其旨在定义一个功能强大、支持通用的芯粒生态系统。
在过去的一年里,Arm 发现了不少市场空缺,于是为了提供满足基础设施性能要求的高效计算,他们推出了 N 系列的最新 CSS 产品——Neoverse CSS N3。CSS N3 的首个实例可提供 32 核心,拥有卓越的能效表现,其热设计功耗(TDP)低至 40 瓦特。
基于最新的 Neoverse N3 IP 平台构建的 CSS N3,不仅引入了 Armv9.2 架构特性,还在每个核心上配备了高达 2 MB的专用二级缓存(L2),同时兼容并支持当前最前沿的 PCIe 和 CXL I/O 接口标准,以及统一芯片互连(UCIe)的芯粒互联规范。
也有些厂商希望在保有 CSS 所有优势的同时,实现更高的性能。因此,Arm 便将 CSS 引入到了高性能的 V 系列,推出了 Neoverse CSS V3。
CSS V3 在单芯片上最多可扩展至 128 核,并支持最新的高速内存和 I/O 标准。CSS V3 基于最新的 Neoverse V3 核心打造,是 Arm 目前单线程性能最高的 Neoverse 核心。V3 为 Arm 机密计算架构 (CCA) 提供硬件支持。V3 和 N3 核心均可提供业界领先的专用 L2 缓存大小,显著改善性能表现。
既然 CSS V3 主打性能,那它在关键工作负载下又能达到什么水平?Arm 提供了如下两张数据图,并强调了一个有意思的点:代际产品之间的性能提升。Arm 的一大优势就是使合作伙伴可以不受制于技术供应商,而是自己掌握创新的步伐,所以更新迭代的速度特别快。
此外,常有人忽视一枚芯片有多少计算周期最终被用于压缩和协议转换等后台任务。N 系列在压缩方面取得了性能优势,可降低云服务运营商的成本,并最终降低云服务客户的成本。同样地,V 系列显著提高了协议缓冲区的性能,这是在数据中心内传输数据的一项关键功能。
光说数据会没什么实感,所以 Arm 也提供了实例。
如今,XGBoost 机器学习算法基本上渗透到所有依赖预测和个性化服务的领域,如内容推荐、出行费用预估及旅行优惠推送等日常应用场景。可以说,我们现在随便打开一个网页所看到的个性化内容,均使用 XGBoost 作为主要数据库来驱动相关核心算法。
所以,这种以工作负载为重点的协作就能最好地体现生活中的实际应用场景。Arm 针对特定关键工作负载的优化,让 N3 平台的 XGBoost 性能飙升至原来的 196%,而且这还是在已经超越同类厂商的工作负载上进行的结果。
去年,有关 AI 的讨论焦点主要集中在生成式 AI 和大语言模型 (LLM) 上,行业重点都是如何训练更厉害的大模型。但根据 Arm 的分析,随着生成式 AI 广泛应用于实际业务场景,其工作重点将转向推理。
分析师估计,已部署的 AI 服务器中有高达 80% 专用于推理,且这一数字还将持续攀升。这一转变意味着要找到合适的模型和模型配置,并加以训练,然后将其部署到更具成本效益的计算基础设施上。
CPU 广泛可用,并可灵活用于机器学习或其他工作负载,此外, CPU 还易于部署,并可支持各种软件框架,具备低成本和高能效等优势。因此,CPU 推理将是生成式 AI 计算应用的关键组成。
但是,并非所有 AI 处理都将在 CPU 上进行,现在风头正盛的 AI 硬件商不是 NVIDIA 吗?事实上,NVIDIA 不仅利用其领先的 Hopper GPU,同时也使用了基于 Neoverse V2 平台的紧耦合计算芯粒 Grace。这种紧耦合的 CPU 加上加速器配置,对大参数 LLM 非常有益,对检索-增强-生成 (RAG) 等新兴方法也很有帮助。
可以见得,Arm 已经通过这次发布解释了自己为什么是未来计算及 AI 的基石。
建设 AI 时代也离不开广大开发者的努力,Arm 在生成式 AI 时代又该如何赋能开发者?Arm 基础设施事业部营销副总裁 Eddie Ramirez 向 CSDN 回答了这点:
我们致力于实现让 AI 应用开发者可以轻松部署的 AI 软件栈。针对中国开发者,我们与龙蜥社区紧密合作。通过提供 Arm Compute Library (ACL, Arm 计算库),为 AI 应用中所使用的许多算法的实现提供出色的支持。Arm 对 TensorFlow、PyTorch 等 AI 框架的支持,加之我们的加速计算库,两者将紧密集成,并纳入未来的龙蜥社区版。
头条创作挑战赛#Arm,“CSS for Client”,总结了最新的 CPU 和 GPU - 针对 AI 进行了优化,GitHub 上的库
5 月 30 日,软银集团旗下英国子公司 Arm 的日本子公司 Arm 宣布推出由最新 CPU 和 GPU 组成的 AI “Arm Compute Subsystems (CSS) for Client”,以及用于开发的库“Arm Kleidi”。
为旗舰手机打包最新的 CPU 和 GPU
Arm CSS for Client 由最新的 Corelink 系统互连和系统内存管理单元 (SMMU) 组成。 基于 Armv9 的最新 Arm Cortex-X925 CPU 和 Arm Immortalis-G925 GPU 针对 CPU 和 GPU 的 3 纳米 (nm) 制造工艺进行了优化,并安装了 Arm Cortex-A725 和 Arm Cortex-A520。
通过为旗舰移动设备 SoC 提供底层计算元件,半导体合作伙伴可以更轻松、更快速地构建基于 Arm 的解决方案,并更快地将产品推向市场。
Cortex-X925 是 CSS for Client 的核心 CPU,是 Arm 基于 Armv9.2 架构的最强大、最高效、最通用的 CPU 集群,可提供最高的性能和能效。
假设时钟频率为 3.8GHz,最大缓存大小,与 2023 年智能手机中的旗舰 4nm SoC 相比,它的单线程性能提高了 36%。 AI 性能提高了 41%,显著提高了生成式 AI 在大型语言模型 (LLM) 等设备上的响应能力。
另一方面,Cortex-A725 是一款同样基于 Armv9.2 架构的新 CPU,可将 AI 和移动游戏用例的性能效率提高 35%。 Arm DSU-120 由新的 Cortex-A520 CPU 支持,可提高电源效率和可扩展性。
另一个核心GPU Immortalis-G925将取代Immortalis-G720。 它可以将电源效率提高多达 37%,并将 AI 推理速度提高 34%。
Arm 应用技术部总监 Rishi Nakajima 表示:“传统 Arm 提供的 CPU 和 GPU 可以单独物理实现,但我们不是单独优化每个 CPU 和 GPU 的性能,而是准备了一个选项,可以作为 CPU + GPU 的单个子模块进行整体优化,并按原样物理实现。
GitHub 上提供的开发库
该公司还宣布了 Arm Kleidi,这是一个使用 Arm CPU 进行开发的库。
它将在 Arm 的“GitHub”上发布,并将为支持 Arm 架构关键功能(如 NEON、SVE2 和 SME2)的 AI 框架的开发人员准备一套计算内核“KleidiAI”,以及用于 CV 的“KleidiCV”。
Nakajima先生解释说,虽然配备NPU(神经处理单元)的设备数量正在增加,NPU硬件和驱动程序的发展已经跟不上AI应用程序的发展,开发人员被迫在CPU上优化AI软件。
Nakajima说:“在CPU端优化AI软件是一个非常重要的问题,[Arm Kleidi]并不是一个经常被讨论的技术,但它是AI和CV应用程序开发人员轻松优化处理的不错选择。
强调人工智能所需的能源效率
Arm 总裁兼首席执行官横山孝之表示,“Galaxy AI”运行在谷歌的 Gemini 上,以及 OPPO、Vivo 和小米等主要厂商的新专有 AI 功能,所有这些都在 Arm 上运行,但所有这些 AI 功能都需要巨大的功率。 能源效率对于实现更高性能的人工智能非常重要,这也是Arm的DNA,“他说,并强调了支持高性能计算的技术。
两年,AI技术的热潮不仅惠及了千行百业,也颠覆了人们的生活。从云端百亿、千亿参数的大模型,到边缘、终端的“小模型”,像vivo的蓝心大模型BlueLM,可以在设备端提供写作、绘画等AIGC的能力,极大改善了用户的使用体验。这种潮流正在形成一种趋势,生成式AI为手机、电脑、智能穿戴、家电等终端带来了真正的智能进化,Arm则是这一切的基石。
“Arm为最大的计算生态系统提供了普适应用,以及对开发者友好的指令集,不断满足下一波的计算性能需求。”Arm终端事业部产品管理副总裁James McNiven表示,“这意味着在设备端和云端都会有更高的性能,同时在某些情况下会需要更高的能耗驱动AI技术,而能效正是Arm的DNA。Arm架构的强大实力可以为计算平台带来最高效的性能。”
Arm终端事业部产品管理副总裁James McNiven
前不久,Arm推出了Arm终端计算子系统(CSS),为旗舰系统级芯片提供基础计算要素,包括全新的Armv9.2 CPU、Arm Immortalis GPU、基于3纳米工艺生产就绪的CPU和GPU物理实现,以及最新的CoreLink系统互连和系统内存管理单元(SMMU)。此外,Arm还通过新推出的Arm Kleidi软件库帮助软件开发者无缝获得Arm CPU的最佳性能。通常,Arm的大多数IP会通过RTL的形式交付,要使RTL变为芯片还要借助EDA工具流,通过一系列的优化和工具完成工具流后提供物理实现。此次Arm除了提供RTL形式的IP交付,还会额外为合作伙伴提供CPU和GPU的物理实现选项。
过去几年中,专为性能和AI设计的Armv9架构在矢量加速、机器学习、安全性、稳定性等方面有着显著提升,在Armv9.2的基础上,Arm通过新一代Arm Cortex-X CPU和Immortalis GPU带来了更高的性能,并以效率为核心,融入了Arm终端CSS的全新能力,加速产品上市进程。Arm终端CSS可让IPC性能同比提高36%,AI推理速度提高59%,ArmImmortalis GPU图形性能提高37%。Arm深知,CPU、GPU、NPU等异构计算的重要性,不同加速器之间的协同可以满足各类应用场景,为客户带来更多的选择。例如,Immortalis GPU在持续推进智能手机中的光线追踪技术普及。在可扩展性方面,三种不同的 CPU 微架构让Arm的合作伙伴能够在包括笔记本电脑、智能手机、数字电视和可穿戴设备等一系列设备上提供对应的性能、效率,以及CPU和GPU解决方案。
Arm Cortex-X925实现了Cortex-X系列推出以来最高的同比性能提升,在3.8GHz的时钟速率和最大缓存大小的条件下,与2023年旗舰智能手机的4纳米SoC相比,其单线程性能大幅提高36%,AI性能相较去年的Cortex-XCPU在Token首次响应时间上提高41%,显著增强了LLM等在设备端的响应能力。微架构的演进带来了最宽的解码和矢量设计大幅提升,TOPS数增长50%。通过更好的可配置性和更大的私有L2缓存,可以保留进出过CPU的指令和数据。Arm Immortalis-G925 GPU在多个AI和ML网络上提升了34%的性能,并把光线追踪技术在面对复杂物体时的表现,在性能上提升了52%。
效率方面,Arm会选择不同的CPU微架构实现最大性能和最长使用天数,通过Immortalis和Arm Mali提供GPU可扩展性,实现性能和效率的灵活性。与Cortex-A720相比,Cortex-A725的能效提高了35%。Cortex-A520 CPU也随着工艺和物理实现的提升得到了改进。图形效率方面,在与去年的终端平台相同水平的游戏性能下,《堡垒之夜》等手游的功耗降低了30%。在为Cortex-X925带来的30%性能提升的基础上,Arm对网页浏览器也进行了改进,使其性能提高23%。
Arm继续携手Google,推动了安卓动态性能框架(Android Dynamic Performance Framework)的发展。在最新版本的框架中,高端内容的每帧能耗降低25%,帧速率提高35%。此外,Arm还调整了安卓工作负载在不同CPU核心之间的平衡方式,为YouTube节省了10%的功耗。针对Google的AV1视频编解码器,Arm进行了软件优化,使当下安卓设备的视频性能最多可提高40%。
除此之外,Arm的内存标记扩展(Memory Tagging Extension, MTE)可以帮助开发者在无需侵入式检测的情况下查找和修复代码中的错误,还可以在实际操作环境下,用来减少安全漏洞被利用。目前,vivo X100、vivo X100 Pro、Google Pixel 8等旗舰设备均允许用户启用MTE。
James McNiven称:“对于Arm终端CSS的完整解决方案来说,我们会针对不同用例,或是某些测试基准设定目标,将其分解到单个IP中。以游戏《原神》为例,我们先从系统层面进行分析,然后针对GPU、CPU等设定提升的目标,将各类游戏机制和计算能力推向极限,每个单一IP的性能提升都会为终端CSS的整体性能添砖加瓦。”
为了帮助开发者更好地发挥Arm终端CSS的性能优势,Arm还推出了Arm Kleidi,包括面向AI工作负载的KleidiAI和面向计算机视觉应用的KleidiCV。KleidiAI是一套面向AI框架开发者的计算内核,使他们能够在各种设备上轻松获得Arm CPU上的最佳性能,并支持Neon、SVE2和SME2等关键Arm架构功能,显著提升计算应用的性能。KleidiAI与PyTorch、Tensorflow、MediaPipe等热门AI框架集成,旨在加速Meta Llama 3、Phi-3等关键模型的性能,并且可以前后兼容,确保Arm在引入更多技术时依然能适用未来市场的需求。值得一提的是,Kleidi一词源于希腊语,意为“钥匙”,即为开发者释放更多性能的“钥匙”。
KleidiAI支持可伸缩矢量扩展(Scalable Vector Extensions, SVE)、可伸缩矩阵扩展(Scalable Matrix Extensions, SME)等能力,部署在Cortex-X925上时,Kleidi技术运行Llama 3和Phi-3LLM的速度要比参考实现快2.9倍,24小时内即可实现。KleidiCV则可以融入神经网络、传统计算机视觉算法等技术,确保社交媒体、摄像头等应用流畅运行。Arm会与OpenCV.ai合作,帮助安卓开发者更便捷地将OpenCV纳入他们的项目中,并从KleidiCV的改进中受益。
Arm在指令预取、分支预测、大缓存等前端访存能力的持续投入,使得应用程序的性能大幅提升,vivo就是很大的受益者,Arm微架构的升级让vivo手机的流畅度达到非常高的水准。Arm终端CSS将为vivo的生成式AI应用提供了强劲的处理能力,也为开发者带来了广阔的发挥空间。vivo首席芯片规划专家夏晓菲谈到:“Arm作为整个产业链的最上游,我们希望把vivo产品的痛点和需求,对工作负载的分析以及产品性能功耗瓶颈的分析,反馈给Arm,使我们整个产业链能够良性循环起来,从而使我们手机产品最终受益,给消费者带来越来越好的体验。”
Arm终端事业部产品管理副总裁James McNiven(左)&vivo首席芯片规划专家夏晓菲(右)
从AI手机到AI PC,Arm发展势头强劲。Windows on Arm(WoA)的生态愈发成熟,越来越多的Arm架构机型和Arm原生应用持续涌现,除了Microsoft Office、Dropbox、Zoom、Adobe套件等,还有百度、哔哩哔哩、Chrome浏览器、爱奇艺、搜狗、腾讯QQ音乐等带来了丰富的体验,Audacity、Blender和OBS Studio(用于流媒体)等开源工具的增多让开发者有了更大的热情,这些应用还整合了大量的开源库和开发工具,面向Windows的Arm Performance Libraries(Arm性能库)推动着WoA生态不断发展。
可以说,通过与合作伙伴的深度协作,Arm的产品和技术正在全球的每一个角落推进着计算能力挑战极限,让AI技术惠及每一个人。“作为计算的基石,Arm致力于通过新技术的推出,帮助我们的合作伙伴取得成功,我们希望能赋能合作伙伴打造出面向AI应用最卓越的设备、芯片组和SoC,为消费者的下一代AI体验夯实根基。”James McNiven说。
(8775559)
*请认真填写需求信息,我们会在24小时内与您取得联系。