初学者易懂的字符编码入门解读资源-CSDN下载

需积分: 10 87 浏览量 2012-11-26 22:28:31 上传评论收藏 38KB DOC 举报

字符编码是计算机处理文本的基础，它定义了如何将字符转换为二进制数据进行存储和传输。本文将通过一个通俗易懂的故事来解释字符编码的关键概念，包括内码、Unicode、ANSI、UTF-8以及Unicode Big Endian。在早期的计算机时代，人们决定用8位（一个字节）的二进制来表示各种状态，这为后来的计算机处理数据提供了基础。ASCII编码是最早的字符编码标准，它规定了0到127的256个状态，其中0到31用于控制码，32到126则用来表示英文字符、数字、标点符号等。随着计算机的普及，非英文国家开始需要更多的字符来表达他们的语言，于是出现了扩展字符集，从128到255，包含更多非ASCII的字符。中国在引入计算机时，由于汉字数量庞大，无法全部用ASCII编码，于是创建了GB2312编码，它采用双字节编码方式，将一个汉字表示为两个字节，第一个字节（高位字节）从0xA1到0xF7，第二个字节（低位字节）从0xA1到0xFE，这样可以表示约7000个简体汉字。后来随着需求的增加，GB2312扩展为GBK，增加了更多汉字和符号，最后扩展到GB18030，包含了几乎所有的汉字和少数民族文字。在这些编码体系中，双字节字符集（DBCS）的概念应运而生，它允许在一个编码系统中同时存在单字节的ASCII字符和双字节的汉字。这给编程带来了挑战，程序员需要处理字节流中的每个字节，判断其是否超过127，以确定字符的长度。 Unicode是为了解决全球多语言编码混乱问题而诞生的，它提供了一个统一的编码空间，涵盖全世界几乎所有的字符。Unicode有两种主要的字节顺序表示方式：Little Endian和Big Endian，区别在于如何存储多字节字符的字节顺序。例如，Unicode Big Endian在存储一个多字节的字符时，会先存储高位字节，后存储低位字节。 UTF-8是一种基于Unicode的编码格式，它能够兼容ASCII，并且根据字符的不同，可以使用1至4个字节来表示一个字符。对于ASCII字符，UTF-8编码与ASCII编码完全相同，都是单字节，而对于非ASCII字符，如汉字，UTF-8使用多个字节来编码，这使得UTF-8在处理多种语言混合的文本时更加灵活和广泛适用。总结来说，字符编码是计算机处理文字的核心技术，从最初的ASCII到Unicode和其变种如UTF-8，再到针对特定地区的编码如GB2312、GBK和GB18030，都是为了满足不同语言和文化的需求。理解这些编码系统的工作原理对于编程和跨文化交流至关重要。

资源推荐

资源详情

资源评论

unicode，ansi，utf-8，unicode big endian 这些编码的区别

很久很久以前，有一群人，他们决定用 8 个可以开合的晶体管来组合成不同的状态，以表

示世界上的万物。他们看到 8 个开关状态是好的，于是他们把这称为"字节"。再后来，他

们又做了一些可以处理这些字节的机器，机器开动了，可以用字节来组合出很多状态，状

态开始变来变去。他们看到这样是好的，于是它们就这机器称为"计算机"。开始计算机只

在美国用。八位的字节一共可以组合出 256(2 的 8 次方)种不同的状态。

他们把其中的编号从 0 开始的 32 种状态分别规定了特殊的用途，一但终端、打印机遇上约

定好的这些字节被传过来时，就要做一些约定的动作。遇上 00x10, 终端就换行，遇上

0x07, 终端就向人们嘟嘟叫，例好遇上 0x1b, 打印机就打印反白的字，或者终端就用彩色显

示字母。他们看到这样很好，于是就把这些 0x20 以下的字节状态称为"控制码"。他们又

把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第

127 号，这样计算机就可以用不同字节来存储英语的文字了。

大家看到这样，都感觉很好，于是大家都把这个方案叫做 ANSI 的"Ascii"编码（American

Standard Code forInformation Interchange，美国信息互换标准代码）。当时世界上所有的计

算机都用同样的 ASCII 方案来保存英文文字。后来，就像建造巴比伦塔一样，世界各地的

都开始使用计算机，但是很多国家用的不是英文，他们的字母里有许多是 ASCII 里没有的，

为了可以在计算机保存他们的文字，他们决定采用 127 号之后的空位来表示这些新的字母、

符号，还加入了很多画表格时需要用下到的横线、竖线、交叉等形状，一直把序号编到了

最后一个状态 255。从 128 到 255 这一页的字符集被称"扩展字符集"。从此之后，贪婪的人

类再没有新的状态可以用了，美帝国主义可能没有想到还有第三世界国家的人们也希望可

以用到计算机吧！

等中国人们得到计算机时，已经没有可以利用的字节状态来表示汉字，况且有 6000 多个常

用汉字需要保存呢。但是这难不倒智慧的中国人民，我们不客气地把那些 127 号之后的奇

异符号们直接取消掉, 规定：一个小于 127 的字符的意义与原来相同，但两个大于 127 的字

符连在一起时，就表示一个汉字，前面的一个字节（他称之为高字节）从 0xA1 用到

0xF7，后面一个字节（低字节）从 0xA1 到 0xFE，这样我们就可以组合出大约 7000 多个简

体汉字了。在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假名们都编进去

了，连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就

是常说的"全角"字符，而原来在 127 号以下的那些就叫"半角"字符了。

中国人民看到这样很不错，于是就把这种汉字方案叫做 "GB2312"。GB2312 是对 ASCII 的

中文扩展。但是中国的汉字太多了，我们很快就就发现有许多人的人名没有办法在这里打

出来，特别是某些很会麻烦别人的国家领导人。于是我们不得不继续把 GB2312 没有用到

的码位找出来老实不客气地用上。后来还是不够用，于是干脆不再要求低字节一定是 127

号之后的内码，只要第一个字节是大于 127 就固定表示这是一个汉字的开始，不管后面跟

的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 GBK 标准，GBK 包括了

GB2312 的所有内容，同时又增加了近 20000 个新的汉字（包括繁体字）和符号。

后来少数民族也要用电脑了，于是我们再扩展，又加了几千个新的少数民族的字，GBK 扩

成了 GB18030。从此之后，中华民族的文化就可以在计算机时代中传承了。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

内容反馈

wankoilz

粉丝: 0

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip