Python - 字符串编解码

本文介绍了Python中字符串的编解码概念,包括编码的本质、常见的编码类型如ASCII、GB2312、GBK和Unicode等。此外,还讨论了UTF-8和UTF-16编码的特点,并指出Python2和Python3的默认编码差异。文章提供了代码实现编解码的示例,涉及字节字符串和Unicode字符串的转换,以及URL编解码和字节相加的操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


关于编解码

编码/解码本质上是一种映射
字符a 用 ascii 编码则是65,计算机中存储为 00110101。
a 需要解码为 00110101,才能被计算机使用。

编码:真实字符与二进制串的对应关系,真实字符 → 二进制串
解码:二进制串与真实字符的对应关系,二进制串 → 真实字符

如:
UTF-8 --> decode 解码 --> Unicode
Unicode --> encode 编码 --> GBK / UTF-8 等


编码的种类

  • ASCII 占 1个字节,只支持英文
  • GB2312 占2个字节,支持 6700+ 汉字
  • GBK GB2312的升级版,支持 21000+ 汉字,中文2个字节。
  • Unicode 2-4 字节, 已经收录 136690 个字符
  • UTF-8:使用 1、2、3、4 个字节表示所有字符;
    优先使用1个字符、无法满足则使增加一个字节,最多 4个字节。
    英文占1个字节、欧洲语系占2个、东亚占 3个,其它及特殊字符占 4个,中文 3个字节。
  • UTF-16:使用2、4个字节表示所有字符;
    优先使用2个字节,否则使用4个字节表示。

ASCII 以 1字节 8个bit位表示一个字符,首位全是0,表示的字符集明显不够

unicode

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

EAI工程笔记

请我喝杯伯爵奶茶~!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值