算力-计算量,关于TOPS和FLOPS,及FLOPs

本文详细解释了芯片算力单位TOPS和FLOPS的区别,以及与FLOPs的关系,同时涵盖了模型算力单位FLOPs的含义。文章还提供了不同单位之间的量级转换,并以Nvidia-A100/H100为例说明。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/zaibeijixing/article/details/135425642
————————————————

目录

一、易混淆的三个点

二、芯片算力单位详解

四、模型算力单位详解 

五、算力单位量级变换

六、计算机存储单位换算

七、科学计算单位换算


一、易混淆的三个点

关于TOPS和FLOPS,及FLOPs,这里有3个易混淆的点。

1、最大的混淆点,上述三个名词是两种东西,注意“S/s”的大小写。TOPS和FLOPS指的是每秒的计算量,算是速度方面的,用在芯片算力性能上。FLOPs指的是深度学习模型自身的计算量,算是体量方面的,用在深度学习模型本身参数计算量上。

2、针对算力速度方面的TOPS和FLOPS,其中OPS指的是每秒处理次数,但通常是默认对INT8整型数的处理次数(INT8省略不写),加上FL后FLOPS指的是对FP32浮点数的处理次数。

3、仍然是针对算力速度方面的TOPS和FLOPS,这里的T指的是量级(Tera ,万亿,10^12),同理TFLOPS专门指每秒对浮点数处理的达到多少万亿次数。

二、芯片算力单位详解

通过缩写就能发现其中的奥妙。

        OPS (operations per second)  每秒处理次数

   FLOPS (Floating point number operations per second) 每秒处理浮点数次数

     TOPS (Tera operations per second) 每秒处理的万亿次数

TFLOPS (Tera Floating point number operations per second每秒处理浮点数的万亿次数

 FLOPs (Floating point number operations)模型参数的处理次数

芯片速度类基础单位OPS(operations per second每秒处理次数,通俗是对INT8类型的操作次数,整型默认省略。
FLOPSFloating point number operations per second是指浮点数每秒处理的次数,通常是FP32,浮点着重强调。

量级单位

(万亿次)

TOPSTera operations per second每秒可以处理的整型运算的万亿次数(10^12次)
TFLOPSTera Floating point number operations per second每秒对浮点数处理的达到多少万亿次数

下图为nvidia-A100/H100部分算力信息,可对比TOPS/TFLOPS区别。 

四、模型算力单位详解 

模型体量类FLOPsFloating point number operations模型参数的处理次数。衡量模型参数计算量

以基础的分类卷积神经网络为例:

AlexNet对于AlexNet处理224*224的图像,需要1.4G FLOPS
ResNet-152对于224*224的图像,ResNet-152需要22.6G FLOPS

五、算力单位量级变换

MOPS (Million Operation Per Second)  一百万次(10^6)   兆;百万

GOPS (Giga Operations Per Second)  十亿次     (10^9)   千兆;十亿(billion,B)

TOPS (Tera Operations Per Second)  一万亿次   (10^12) 兆兆

1 MOPS = 10^6 FLOPS一个MFLOPS(megaFLOPS)等于每秒一百万  (=10^6)次的浮点运算,
1 GOPS = 10^9 FLOPS

一个GFLOPS(gigaFLOPS)等于每秒十亿        (=10^9)次的浮点运算,

十亿(部分地方可能会用B,billion,十亿)

1 TOPS = 10^12 FLOPS一个TFLOPS(teraFLOPS)等于每秒一万亿      (=10^12)次的浮点运算,(1太拉)
注意:这个地方有时候加不加FL比较含糊,很多厂家和个人有时候没有专门写明,一般先关注量级即可

六、计算机存储单位换算

1Byte=8bit   
1KB=1024Byte(字节)=8*1024bit   
1MB=1024KB   
1GB=1024MB   
1TB=1024GB    tera(梯)单位标示:T/TB   

七、科学计算单位换算

10^15拍[它]Ppeta
10^12太[拉](万亿)Tteratrillion 万亿
10^9吉[咖](十亿)Ggigabillion 十亿
10^6兆(百万)Mmegamillion 百万
10^3kkilo
### 显卡 TOPS 概述 显卡的TOPS(Tera Operations Per Second,万亿次操作每秒)是一个衡量其运的重要指标。这一参数对于涉及大量数据处理的应用场景尤为重要,比如人工智能训练、高性能计以及大规模图形渲染等应用领域[^2]。 在这些应用场景下,TOPS反映了设备每秒钟可以完成多少亿次的操作数。更高的TOPS意味着更强的数据吞吐能更快的任务处理速度。然而值得注意的是,除了理论上的峰值性能外,实际表现还会受到诸如内存带宽、架构设计等因素的影响。 ### 不同品牌显卡 TOPS 对比 市场上主要存在NVIDIA、AMD两大厂商提供高端显卡产品。以下是两家公司部分代表性产品的TOPS对比: #### NVIDIA GeForce RTX系列 | 型号 | FP32 TFLOPS (Tensor Cores) | | --- | --------------------------- | | RTX 4090 | ~1,110 | | RTX 4080 | ~780 | #### AMD Radeon RX系列 | 型号 | FP32 TFLOPS | | --------- | ------------------------- | | RX 7900 XTX | ~61.4 | | RX 7900 XT | ~52 | 上述表格展示了不同型号显卡之间的浮点运差异,其中FP32 TFLOPS是衡量通用计任务的一个常用标准。 需要注意的是,尽管这里提供了某些具体型号的信息,但由于技术更新迅速,建议查阅最新的官方文档获取最准确的产品规格说明。 ```python import pandas as pd nvidia_data = {'Model': ['RTX 4090', 'RTX 4080'], 'FP32 TFLOPS': [1110, 780]} amd_data = {'Model': ['RX 7900 XTX', 'RX 7900 XT'], 'FP32 TFLOPS': [61.4, 52]} df_nvidia = pd.DataFrame(nvidia_data) df_amd = pd.DataFrame(amd_data) print(df_nvidia) print("\n") print(df_amd) ```
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值