AI TOPS和NPU性能指标指南

作者：Peter Burns 高通技术公司技术市场高级总监

AI TOPS和NPU性能指标指南

在当今快速发展的技术环境中，AI正在变革各行各业并推动创新，理解AI性能指标的复杂性至关重要。过去许多AI模型需要在云端运行。当我们走向由终端侧生成式AI处理定义的未来时，我们必须能够评估计算平台可运行AI模型的性能、准确性和效率。如今，TOPS(每秒万亿次运算)是衡量处理器AI性能的主要方式之一。TOPS是基于处理器所需的架构和频率，衡量处理器潜在AI推理峰值性能的方法，比如神经网络处理器(NPU)。下面我们将深入探讨。

NPU是什么？

在深入探讨TOPS的具体内容之前，让我们先看看NPU的重要性。对于终端侧AI处理，NPU在提高效率、为个人用户和企业提供创新的应用体验方面发挥着关键作用。评估这些专用处理器的性能需要全面了解其能力背后的关键指标。

NPU的演进改变了人们处理计算的方式。传统上，CPU负责执行AI算法。随着对处理性能的需求飙升，专用NPU应运而生，成为处理AI相关软件应用的专用解决方案。NPU旨在高效处理AI任务所需的复杂数学计算，提供出色的效率、性能和能效。

AI TOPS和NPU性能指标指南

AI TOPS是什么？

TOPS作为展示处理器计算能力的指标，是衡量NPU性能的核心。

TOPS通过以万亿单位测量一秒钟内执行的运算(加法、乘法等)次数来量化NPU处理能力。

这种标准化测量方式非常明确地显示了NPU的性能，可作为比较不同处理器和架构AI性能的关键指标。因为TOPS是针对NPU的基础性能指标，探索TOPS的计算参数以及它们如何决定性能至关重要，这有助于更深入地了解NPU的能力。

乘法累加(MAC)运算执行AI工作负载中的核心数学公式。矩阵乘法由两类基础运算组成：累加器的乘法和加法。例如，一个MAC单元可在每个时钟周期内运行两类基础运算各一次，意味着它在每个时钟周期内执行两个运算。一个给定的NPU有一定数量的MAC单元，能够在不同精度级别进行运算，这取决于NPU架构。频率决定NPU及其MAC单元(以及CPU或GPU)运算的时钟速度(或每秒周期数)，直接影响整体性能。更高的频率允许在单位时间内执行更多运算，从而提高处理速度。但是，提高频率也会导致更高功耗和发热，影响电池续航和用户体验。处理器TOPS计算通常使用峰值运行频率。

精度指计算的颗粒度，通常精度越高模型准确性就越高，需要的计算强度也越高。最常见的高精度AI模型为32位和16位浮点精度，而速度更快的低精度低功耗模型通常使用8位和4位整数精度。当前行业标准为以INT8精度评估AI推理性能TOPS。

计算TOPS要从计算OPS开始，OPS等于MAC单元数乘以运行频率的两倍。TOPS数量是OPS除以一万亿的值，将公式更简单地列出，即TOPS = 2×MAC单元数×频率/1万亿。

AI TOPS和NPU性能指标指南

TOPS和实际性能

尽管TOPS提供了探索NPU能力的重要信息，我们仍必须将理论指标和实际应用联系起来。毕竟，仅仅有高TOPS值并不能保证最佳的AI性能;各种因素协同作用的结果才能真正决定NPU实力。

因此评估NPU性能时要考虑内存带宽、软件优化和系统集成等方面的因素。基准测试可以帮助我们超越数字，了解NPU在实际场景中的表现，其中时延、吞吐量和能效尤为重要。

Procyon AI基准测试使用真实工作负载来帮助将理论性的TOPS评估转化为用户在使用AI推理的真实应用中对响应和处理能力的预期。它以多个精度运行六个模型，提供NPU不同性能表现的详细洞察。类似模型在生产力、媒体、创作者和其他应用中越来越常见。在Procyon AI和其他基准测试中有更快的性能表现，与实现更快推理和更好用户体验息息相关。

为此，分析实际性能可以为NPU的能力和局限性提供宝贵洞察。必须从可行性和实用性角度检验性能指标。

AI TOPS和NPU性能指标指南