FP16数据格式详解

发表于 2023-12-23 分类于机器学习本文字数： 384 阅读时长 ≈ 1 分钟

1. 浮点格式说明

浮点数的格式通常由三部分组成：符号位(Sign bit)、指数部分(Exponent)和尾数部分(Significand/Fraction)。整个浮点数占用的位数取决于不同的浮点数格式。例如，IEEE 754标准的单精度浮点数（float）有32位，双精度浮点数（double）有64位。参考：Floating-point arithmetic

最终的浮点表示如下，s是significand；p是precision精度(significand中的数字的个数)；b是base，这里base用的是10或者2。 \[ \frac{s}{b^{p-1}} \times b^e\]

一个具体的示例如下：

float32/bfloat16/float16/tf32三种格式的比较:

2. Normal number

最小的normal number用 \(b^{E_{min}}\) 表示，最大的normal number用 \[ b^{E_{max}} \cdot (b-b^{1-p}) \]，其中 \(E_{min} = (-E_{max}) + 1\)。常用的格式如下：

3. FP16 Subnormal number

低能数（Subnormal numbers）是指那些比通常能够表示的数字要小的数字。在浮点数的规格化表示中，如果一个数的指数部分全为0且尾数部分不为0，那么这个数就被称为低能数。

对于FP16来说，sign是1位，exponent是5位，fraction是10位。

对于Exponent表示的范围如下： * \(E_{min} = 00001_2 - 01111_2 = -14\) * \(E_{max} = 11110_2 - 01111_2 = 15\) * \(Exponent\ bias = 01111_2 = 15\)

对于FP16表示的范围如下，当Exponent为0且Significand不为0时，对应就是subnormal number的范围，也就是\(0.000000059604645 \sim 0.000060975552\)。

1. 浮点格式说明

2. Normal number

3. FP16 Subnormal number

4. 参考