浮点数的二进制表示 - 阮一峰的网络日志

相关文章推荐

威武的钥匙扣 · 今日关注：住院医保怎么报？_其他文件_南阳市 ...· 6 月前 ·

爱听歌的筷子 · 北京科技大学党务公开、信息公开网· 10 月前 ·

彷徨的充电器 · 【免费下载】Axure移动端常用设备元件库（ ...· 11 月前 ·

爱运动的打火机 · python操作k8s回滚的api接口 ...· 1 年前 ·

精明的显示器 · exoplayer 循环播放视频 - CSDN文库· 1 年前 ·

float* pFloat=&num; /* pFloat表示num的内存地址，但是设为浮点数 */

printf("num的值为：%d\n",num); /* 显示num的整型值 */

printf("*pFloat的值为：%f\n",*pFloat); /* 显示num的浮点值 */

*pFloat=9.0; /* 将num的值改为浮点数 */

printf("num的值为：%d\n",num); /* 显示num的整型值 */

printf("*pFloat的值为：%f\n",*pFloat); /* 显示num的浮点值 */

运行结果如下：

num的值为：9
*pFloat的值为：0.000000
num的值为：1091567616
*pFloat的值为：9.000000

我很惊讶，num和*pFloat在内存中明明是同一个数，为什么浮点数和整数的解读结果会差别这么大？

要理解这个结果，一定要搞懂浮点数在计算机内部的表示方法。我读了一些资料，下面就是我的笔记。

在讨论浮点数之前，先看一下整数在计算机内部是怎样表示的。

int num=9;

上面这条命令，声明了一个整数变量，类型为int，值为9（二进制写法为1001）。普通的32位计算机，用4个字节表示int变量，所以9就被保存为00000000 00000000 00000000 00001001，写成16进制就是0x00000009。

那么，我们的问题就简化成： 为什么0x00000009还原成浮点数，就成了0.000000？

根据国际标准IEEE 754，任意一个二进制浮点数V可以表示成下面的形式：

举例来说，十进制的5.0，写成二进制是101.0，相当于1.01×2^2。那么，按照上面V的格式，可以得出s=0，M=1.01，E=2。

十进制的-5.0，写成二进制是-101.0，相当于-1.01×2^2。那么，s=1，M=1.01，E=2。

IEEE 754规定，对于32位的浮点数，最高的1位是符号位s，接着的8位是指数E，剩下的23位为有效数字M。

对于64位的浮点数，最高的1位是符号位S，接着的11位是指数E，剩下的52位为有效数字M。

IEEE 754对有效数字M和指数E，还有一些特别规定。

前面说过，1≤M<2，也就是说，M可以写成1.xxxxxx的形式，其中xxxxxx表示小数部分。 IEEE 754规定，在计算机内部保存M时，默认这个数的第一位总是1，因此可以被舍去，只保存后面的xxxxxx部分。 比如保存1.01的时候，只保存01，等到读取的时候，再把第一位的1加上去。这样做的目的，是节省1位有效数字。以32位浮点数为例，留给M只有23位，将第一位的1舍去以后，等于可以保存24位有效数字。

至于指数E，情况就比较复杂。

首先，E为一个无符号整数（unsigned int）。这意味着，如果E为8位，它的取值范围为0~255；如果E为11位，它的取值范围为0~2047。但是，我们知道，科学计数法中的E是可以出现负数的， 所以IEEE 754规定，E的真实值必须再减去一个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023。

比如，2^10的E是10，所以保存成32位浮点数时，必须保存成10+127=137，即10001001。

然后，指数E还可以再分成三种情况：

（1）E不全为0或不全为1。 这时，浮点数就采用上面的规则表示，即指数E的计算值减去127（或1023），得到真实值，再将有效数字M前加上第一位的1。

（2）E全为0。 这时，浮点数的指数E等于1-127（或者1-1023），有效数字M不再加上第一位的1，而是还原为0.xxxxxx的小数。这样做是为了表示±0，以及接近于0的很小的数字。

（3）E全为1。 这时，如果有效数字M全为0，表示±无穷大（正负取决于符号位s）；如果有效数字M不全为0，表示这个数不是一个数（NaN）。

好了，关于浮点数的表示规则，就说到这里。

下面，让我们回到一开始的问题： 为什么0x00000009还原成浮点数，就成了0.000000？

首先，将0x00000009拆分，得到第一位符号位s=0，后面8位的指数E=00000000，最后23位的有效数字M=000 0000 0000 0000 0000 1001。

由于指数E全为0，所以符合上一节的第二种情况。因此，浮点数V就写成：

V=(-1)^0×0.00000000000000000001001×2^(-126)=1.001×2^(-146)

显然，V是一个很小的接近于0的正数，所以用十进制小数表示就是0.000000。

再看例题的第二部分。

请问浮点数9.0，如何用二进制表示？还原成十进制又是多少？

首先，浮点数9.0等于二进制的1001.0，即1.001×2^3。

那么，第一位的符号位s=0，有效数字M等于001后面再加20个0，凑满23位，指数E等于3+127=130，即10000010。

所以，写成二进制形式，应该是s+E+M，即0 10000010 001 0000 0000 0000 0000 0000。这个32位的二进制数，还原成十进制，正是1091567616。

比如，2^10的E是10，所以保存成32位浮点数时，必须保存成 10+127=137 ，即10001001。

那么，第一位的符号位s=0，有效数字M等于001后面再加20个0，凑满23位，指数E等于 3+127=130 ，即10000010。

上面是否应该是真实值加上一个中间数呢？因为下面两个例子均是使用 + 127

V=(-1)^0×0.00000000000000000001001×2^(-126)=1.001×2^(-146)
应该修改为：
V=(-1)^0×1.00000000000000000001001×2^(-126)
因为 M=000 0000 0000 0000 0000 1001（23b），转化为系数时，1自动加上，变成 1.000 0000 0000 0000 0000 1001(24b)

错了 E为0，所以M不需要自动加一

我是来吐槽博客页面排版的。:-)
关于代码的展示，个人觉得用 pre 标签比 blockquote 标签更合适。另外，对于每行代码都用 p 和 strong 标签，实现方式实在是有些 ugly。
另外没有代码高亮展示，不知道你中文博客用的什么框架（英文是 WordPress），可以找相关的代码高亮插件。

比如，2^10的E是10，所以保存成32位浮点数时，必须保存成10+127=137，即10001001。
那么，第一位的符号位s=0，有效数字M等于001后面再加20个0，凑满23位，指数E等于3+127=130，即10000010。

为什么是10+127而不是10-127呢？很多文章都描述规格化是E减去偏置值，但实现的时候却是加法。请指教！

但是，我们知道，科学计数法中的E是可以出现负数的，所以IEEE 754规定，E的真实值必须再减去一个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023。
比如，2^10的E是10，所以保存成32位浮点数时，必须保存成10+127=137，即10001001。

这个地方没有解释清楚，怎么上面说IEEE 规定，E的真实值必须再减去一个中间数，下面的比如又变成了10+127了?

我查了一下资料，只是这样理解了：因为指数部分在存储时是在符号位之后，为了区分指数和符号位部分，因此在 存储指数 的时候会将指数部分向右偏移127(单精度), 结果将为0 ~ 254，也就是存储时将E+127，那获取值时才要减127，得到E的真实值。

V=(-1)^0×0.00000000000000000001001×2^(-126)=1.001×2^(-146)

这个结果 1.1221598e-44 或者 2e-323。就算我用%.1000f来输出整数9，小数点后依然全是0。虽然理论上来说这个很小的数已经超出了浮点数的精度，但是如果是浮点数在那儿可以打印出小数点很多0后的小数位。、

我的疑问是：为什么是个整数却成了0.000000后面一亿位都是0。是因为整数转换后已经超出了浮点数的精度而且这个数十分接近0，%f得到的就是0了，所以%f输出的就是0.0。是这样理解吗？

https://www.zhoulujun.cn/html/theory/computBase/2016_0714_7860.html
引用了博主的内容
IEEE-745浮点数表示法数值精度丢失
计算机中的数字都是以二进制存储的，二进制浮点数表示法并不能精确的表示类似0.1这样的简单的数字

如果要计算 0.1 + 0.2 的结果，计算机会先把 0.1 和 0.2 分别转化成二进制，然后相加，最后再把相加得到的结果转为十进制

但有一些浮点数在转化为二进制时，会出现无限循环。比如，十进制的 0.1 转化为二进制，会得到如下结果：

0.1 => 0.0001 1001 1001 1001…（无限循环）

0.2 => 0.0011 0011 0011 0011…（无限循环）

而存储结构中的尾数部分最多只能表示 53 位。为了能表示 0.1，只能模仿十进制进行四舍五入了，但二进制只有 0 和 1 ，于是变为 0 舍 1 入。因此，0.1 在计算机里的二进制表示形式如下：

0.1 => 0.0001 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 101

0.2 => 0.0011 0011 0011 0011 0011 0011 0011 0011 0011 0011 0011 0011 0011 001

用标准计数法表示如下：

0.1 => (−1)0 × 2^4 × (1.1001100110011001100110011001100110011001100110011010)2

0.2 => (−1)0 × 2^3 × (1.1001100110011001100110011001100110011001100110011010)2

在计算浮点数相加时，需要先进行 “对位”，将较小的指数化为较大的指数，并将小数部分相应右移：

最终，“0.1 + 0.2” 在计算机里的计算过程如下：

经过上面的计算过程，0.1 + 0.2 得到的结果也可以表示为：

(−1)0 × 2−2 × (1.0011001100110011001100110011001100110011001100110100)2=>.0.30000000000000004

这是一个典型的精度丢失案例，从上面的计算过程可以看出，0.1 和 0.2 在转换为二进制时就发生了一次精度丢失，而对于计算后的二进制又有一次精度丢失。因此，得到的结果是不准确的。

1. 上文“（2）E全为0。这时，浮点数的指数E等于1-127（或者1-1023）”，这里为什么是1-127？而不是0 - 127呢？？求解释
2. 上文最后面第二道题目“所以，写成二进制形式，应该是s+E+M，即0 10000010 001 0000 0000 0000 0000 0000。这个32位的二进制数，还原成十进制，正是1091567616。”，请问这里的“1091567616”是怎么算出来的？

在线等等？11点之前都在线，很想知道！！！！

binary：-1.01,0011,0011,0011,... 无限循环 0011
科学计数法：-1.01,0011,0011... x 2^0
s = 1, E = 0 + 1023, M = 01,0011,0011,0011,0011... 循环到补足 52 位
所以结果为： 1 0111,1111,111 01,0011,0011,0011,0011,0011,0011,0011,0011,0011,0011,0011,0011,00
使用代码验证结果为： 1 0111,1111,111 01,0011,0011,0011,0011,0011,0011,0011,0011,0011,0011,0011,0011,01（发生进位）