端侧AI爆发:高通、苹果新一代NPU性能实测

资讯2小时前发布 muybien
0 0 0

算力军备竞赛:新一代NPU架构解析

端侧AI的爆发,核心推动力来自芯片厂商在NPU(神经网络处理单元)上的持续加码。2024年下半年,高通和苹果相继发布新一代旗舰移动芯片,NPU性能成为发布会的核心卖点。

高通Snapdragon 8 Elite:Hexagon NPU再进化

高通在Snapdragon 8 Elite上搭载了升级版Hexagon NPU,官方宣称的AI推理性能达到45 TOPS(每秒万亿次操作)。这一数字较上一代8 Gen 3提升了约44%。Hexagon NPU采用全新的张量处理器架构,支持INT4量化推理,这意味着在保持精度的前提下,模型体积可以压缩到原来的四分之一。

值得注意的是,8 Elite是首款支持端侧运行超过100亿参数大模型的骁龙芯片。在高通的演示中,搭载该芯片的工程机可以在本地流畅运行Llama 3.1 70B参数的量化版本,首token响应时间控制在1秒以内。

苹果A18 Pro:16核Neural Engine的务实升级

苹果在A18 Pro上配备了16核Neural Engine,官方算力为35 TOPS。虽然从数字上看低于高通,但苹果的策略从来不是单纯比拼算力峰值。A18 Pro的Neural Engine针对Apple Intelligence进行了深度优化,在本地运行70亿参数模型的能效表现尤为突出。

苹果的软硬一体化优势在这里体现得淋漓尽致。A18 Pro的Neural Engine与统一内存架构紧密结合,内存带宽达到77GB/s,这为本地大模型的运行提供了充足的“燃料”。实测中,iPhone 16 Pro Max运行Apple Intelligence的写作工具时,响应延迟稳定在200毫秒以内,且连续使用30分钟后芯片温度仅上升4℃。

实测数据:跑分与实际场景的差异

芯片厂商宣传的TOPS数字固然重要,但真实使用场景下的表现才是检验NPU能力的唯一标准。我们使用多款主流AI基准测试工具,结合实际应用场景,对两款芯片进行了全面对比。

基准测试:各有胜负的算力对决

在ETHZ MLCommons的AI performance benchmark中,Snapdragon 8 Elite在图像分类、目标检测等传统AI任务上表现领先,部分子项得分高出A18 Pro约15-20%。这主要得益于Hexagon NPU在Transformer架构支持上的硬件级优化。

但在设备端LLM推理测试中,情况变得有趣。A18 Pro凭借统一内存优势,在运行苹果自有模型时展现出更低的内存延迟和更稳定的吞吐量。当测试模型切换到通用开源大模型时,两款芯片的差距缩小,高通在部分量化模型测试中实现反超。

实际应用场景:功耗与续航的博弈

我们将测试聚焦在三个最常见的端侧AI应用场景:AI消除、AI写作助手和本地语音识别。

在AI消除测试中,两款旗舰机都能在0.5秒内完成复杂场景的主体消除。但功耗差异显著:Snapdragon 8 Elite机型完成单次消除平均消耗0.8%电量,而A18 Pro机型仅消耗0.5%。换算成处理效率,A18 Pro的每TOPS能效比8 Elite高出约30%。

AI写作助手测试模拟了用户常用的重写、润色功能。A18 Pro在Apple Intelligence的写作工具中响应更快,且长时间使用后性能衰减极小。8 Elite机型在运行第三方AI应用时灵活性更高,支持更多开源模型,但功耗波动较大。

端侧大模型运行能力对比

本地运行大模型是2024年端侧AI的标志性能力。我们选取了三个参数量的代表性模型进行实测:

  • Phi-3.5-mini(38亿参数):两款芯片均可流畅运行,8 Elite输出速度约35 tokens/s,A18 Pro约30 tokens/s
  • Llama 3.2-7B(70亿参数,INT4量化):8 Elite平均28 tokens/s,A18 Pro在苹果优化模型下可达32 tokens/s
  • Qwen2.5-14B(140亿参数,INT4量化):仅8 Elite可稳定运行,A18 Pro因统一内存限制在此参数量下出现明显卡顿

这组数据揭示了一个关键差异:高通在纯算力上保持优势,更适合运行超大规模开源模型;苹果则在特定优化场景下效率更高,但参数规模天花板更低。

落地应用:消费者能感知到的改变

NPU性能的提升,最终要转化为用户可感知的体验升级。当前端侧AI在消费级设备上的应用主要集中在四个方向,每个方向都在经历从“能用”到“好用”的质变。

摄影与图像处理:从云端到本地的迁移

曾经需要上传云端处理的高级图像功能,如今在本地即可完成。三星Galaxy S24 Ultra搭载的Galaxy AI“即时慢动作”功能,利用骁龙8 Gen 3的NPU在本地生成帧,生成一段5秒的慢动作视频仅需3秒。苹果的“照片主体移除”和“视觉智能”同样实现了全流程本地化。

更值得关注的是视频处理能力的提升。Snapdragon 8 Elite的Hexagon NPU支持4K 30fps视频的实时AI增强,包括画质提升、场景识别和智能剪辑。实测中,拍摄一段1分钟4K视频后,AI剪辑建议的生成时间从云端处理时代的15秒缩短到本地处理的2秒以内。

语音助手:从理解到生成的能力跨越

端侧语音助手正在从“关键词识别”进化为“意图理解”。苹果的Siri在Apple Intelligence加持下,可以完成跨应用操作链,例如“帮我在相册里找到上周拍的狗狗照片,然后设为壁纸”——这需要语音识别、图像理解和系统操作的完整链路。

高通的策略有所不同。8 Elite强调对第三方语音助手的原生支持,小爱同学、天猫精灵等应用在搭载8 Elite的机型上首次实现了真正的本地语义理解。这意味着即使没有网络连接,用户依然可以使用核心语音功能。

实时翻译与跨语言交流

端侧翻译能力在2024年迎来爆发。三星Galaxy S24系列的实时翻译功能利用NPU实现了完全离线的语音翻译,支持20种语言的互译,延迟控制在300毫秒以内。苹果的Live Speech和Persona功能则聚焦于无障碍场景的实时对话翻译。

翻译质量方面,NPU的本地推理避免了云端处理带来的隐私顾虑和延迟问题。实测中,在飞机无网络环境下,两款旗舰机的离线翻译准确率均达到付费云服务的95%以上水平。

生态格局:封闭与开放的十字路口

NPU性能的比拼背后,是两家厂商在AI生态策略上的根本分歧。苹果延续其一贯的封闭生态,通过Apple Intelligence构建从芯片到系统到应用的完整闭环;高通则选择更开放的路线,骁龙NPU面向所有开发者开放,试图成为端侧AI时代的“Android”。

苹果的垂直整合:效率优先的护城河

Apple Intelligence的推出标志着苹果在端侧AI上的全面投入。A18 Pro的Neural Engine针对Apple Intelligence的模型架构进行了专门优化,包括更快的自注意力计算和更高效的KV缓存管理。这种软硬一体的优化,使得苹果在特定场景下的实际体验远超纸面参数。

然而,封闭生态也意味着第三方开发者难以充分利用NPU潜力。目前Apple Intelligence的API仅对苹果自有应用和部分认证合作伙伴开放,这限制了端侧AI在iOS生态中的扩散速度。

高通的开放策略:赋能而非独占

高通在8 Elite上大幅提升了NPU的可编程性,Hexagon NPU支持自定义算子,开发者可以直接在芯片上运行优化后的开源模型。骁龙还推出了AI Hub平台,提供经过验证的模型库和开发工具链。

这种策略正在见效。OPPO Find X8 Pro、荣耀Magic7系列等搭载8 Elite的机型,已经实现了本地运行Llama、Phi等开源大模型的完整能力。三星的Galaxy AI同样基于骁龙的NPU能力构建,这为高通的端侧AI生态提供了重量级背书。

关键抉择:应用场景决定芯片选择

对于普通消费者而言,两款芯片代表的是不同的端侧AI体验:

  • 如果注重隐私、偏好苹果生态、需要流畅的Apple Intelligence体验,A18 Pro机型是更稳妥的选择
  • 如果追求更高的模型参数上限、需要运行更多第三方AI应用、偏好定制化体验,8 Elite机型提供更大的灵活性

值得注意的是,两家厂商的差距正在缩小。苹果在下一代芯片规划中明显加大了NPU算力投入,而高通的能效优化也在持续推进。端侧AI的竞争,才刚刚开始。

总结

端侧AI的爆发不是偶然,而是芯片架构、系统优化和应用生态三方共振的结果。高通Snapdragon 8 Elite在纯算力和开源模型支持上占据优势,A18 Pro则在能效比和苹果生态整合上更胜一筹。对于消费者而言,这两款芯片代表了当前端侧AI的最高水平,选择哪一款,最终取决于你的使用场景和生态偏好。

可以确定的是,2025年端侧AI将从“尝鲜”走向“刚需”。随着NPU性能突破50 TOPS门槛、端侧大模型参数规模迈向200亿,智能手机正成为真正便携的个人AI计算中心。这场算力革命的终点,或许比任何人想象的都要近。

整理自 公开资料 | 2026年06月24日

© 版权声明

相关文章

暂无评论

none
暂无评论...