• Ukieweb

    佳的博客

    曾梦想仗剑天涯,后来工作忙没去。

了解 unicode 编码 与 utf-8 一语道破 乱码的实本质

知道下面这些点,应该就明了了吧

  • 电脑中只能存储二进制数据,电脑操作的最小单位是 byte字节,一个字节是 8bit(8位)。

  • 字符的存储:电脑只能存储数字,所以要将字符转为对应的数字进行存储。

  • 各种编码(unicode,ascii,gbk等等):功能就是字符与数字的对应关系,所以每种编码会有对应的编码表

  • utf-8 : 是unicode编码实现的一种方式: 就是按照编码表,字符怎样的方式电脑中进行存取。也就是用几个 byte 来存储字符对应的数

为什么会出现乱码?

其实很简单啦。由于编码方案众多,交叉使用编码方案就会乱码。

譬如: 我们中文可以用 gbk,utf-8 ,如果我们用 gbk 进行存,然后用 utf-8 方式取,就有可能乱码。

试想: 

  • 如果 同一个字符,在 gbk 对应的数字是 8000, 而在 utf-8 中对应的数字是 9000,要乱码的吧

  • 就算数字一样,如果 gbk 是用 2 个字节 存储一个 字符,而这个字符 utf-8 中是 3 个字节存,那 utf-8 会多取一个 字节,这个值,肯定也不对,又乱码了吧

为什么英文很少乱码

电脑是外国发明的,起初只显示英文,英文是 ascii 编码,因为 ASCII 编码只用一个字节 , 他只用 127 个字符就可以表示完英文,符号等。

之所以会有其他的编码,是因为这 127 个字符无法表示其他的字符,比如中文,几千个汉字,127 显然远远不够。 可以理解为,其他的编码是在 ascii 基础上的扩充。

所以这也是为什么其他的编码大都兼容ascii,英文很少显示乱码的原因。

0
0
下一篇:Golang 错误 和 异常 处理的正确姿势

0 条评论

老佳啊

85后,大专学历,中原人士,家里没矿。

由于年轻时长的比较帅气,导致在别人眼里,我一直不谈恋爱的原因是清高,实则是自己的小自卑。最大的人生目标就是找一个相知相爱相容的人,共度余生。

和人相处时如果能感受到真诚,会非常注重彼此的关系,对别人没有什么心机,即使有利益冲突,一般也会以和为贵,因为在这个世界上,物质的东西,从来不会吸引到我。

特别迷恋那些大山大水,如果现在还能隐居,可能早就去了。对那些宏伟的有底蕴的人文景观比较不感冒。

从事于IT行业,却一直对厨房念念不忘,由于身材魁梧,总觉得自己上辈子是个将军,可惜这辈子没当兵,也不会打架。