常见编码方式_常用的编码方式有哪几种-CSDN博客

本文链接：https://blog.csdn.net/qq_41117896/article/details/115466436

本文详细介绍了常见的字符编码方式，包括ASCII码，Unicode及其UTF-8和UTF-16的实现，以及GBK编码。ASCII码用于英文字符，Unicode覆盖全球符号，UTF-8以变长方式存储，节省空间；UTF-16则以定长或变长方式，简化编码规则。GBK是对GB2312的扩展，兼容更多汉字和繁体字。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

常见编码方式

ASCll码

统一规定了英文字符与二进制位之间的关系，一共规定了128个字符的编码

Unicode

是一种所有符号的编码，将世界上所有的符号都纳入其中

存在的问题是，Unicode只是一个符号集，只规定了符号的二进制代码，没有规定这个二进制代码该如何储存。为了解决这个问题，就有了Unicode的三种实现方式：UTF-8,UTF-16,UTF-32

UTF-8

它是一种可变长度的编码方式，可以用1~4个字节表示一个符号，根据不同的符号变化字节长度

编码规则：

1.对于单字节的符号，字节的第一位设为0，后面7位为这个符号的Unicode码。因此对于英文字母，UTF-8和ASCll码是相同的

2.对于n字节的符号，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10，其余的二进制位用这个字符的Unicode码点来填充（从后向前填充，不够的用0补上）

十进制	Unicode	UTF-8
0-127	0x000000-0x00007F	0xxxxxxx(7位)
128-2047位	0x000080-0x0007FF	110xxxxx 10xxxxxx(11位)
2048-65535位	0x000800-0x00FFFF	1110xxxx 10xxxxxx 10xxxxxx(16位)
65536-1114111位	0x010000-0x10FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx(21位)

UTF-16

Unicode编码点分为17个平面（plane），每个平面包含216（即65536）个码位（code point），而第一个平面称为“基本多语言平面”（Basic Multilingual Plane，简称BMP），其余平面称为“辅助平面”（Supplementary Planes）。其中“基本多语言平面”（0_{0xFFFF）中0xD800}0xDFFF之间的码位作为保留，未使用。

UTF-16同时结合了定长和变长两种编码方法的特点。他的编码规则很简单：基本平面的字符占用2个字节，辅助平面的字符占用4个字节。也就是说，UTF-16的编码长度要么是2个字节，要么是4个字节