python2和python3的字符编码问题_python2 bites str-CSDN博客

本文链接：https://blog.csdn.net/zhuanli555/article/details/80769216

本文详细对比了Python2和Python3中字符串编码的不同之处。Python2中字符串不完全支持Unicode，需要使用单独的Unicode字符串类型；而Python3默认所有字符串为Unicode编码。通过具体示例展示了两种版本下字符串的创建、编码及解码过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python2和Python3在字符串编码上是有明显的区别。

在Python2中，字符串无法完全地支持国际字符集和Unicode编码。为了解决这种限制，Python2对Unicode数据使用了单独的字符串类型。要输入Unicode字符串字面量，要在第一个引号前加上’u’。Python2中普通字符串实际上就是已经编码(非Unicode)的字节字符串。

在Python3中，不必加入这个前缀字符，否则是语法错误，这是因为所有的字符串默认已经是Unicode编码了。

python2实例：

>>> ‘张三’ #python2 会自动将字符串转换为合适编码的字节字符串
‘\xe5\xbc\xa0\xe4\xbf\x8a’ #自动转换为utf-8编码的字节字符串

>>> u’张三’ #显式指定字符串类型为unicode类型，此类型字符串没有编码，保存的是字符在unicode字符集中的代码序号
u’\u5f20\u4fca’

>>> ‘张三’.encode(‘utf-8’) #python2 已经自动将其转化为utf-8类型编码，因此再次编码(python2会将该字符串当作用ascii或unicode编码过)会出现错误。
Traceback (most recent call last):
File “”, line 1, in
UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe5 in position 0: ordinal not in range(128)

>>> ‘张三’.decode(‘utf-8’) #python2 可以正常解码，返回的字符串类是无编码的unicode类型
u’\u5f20\u4fca’

>>> b’张三’ # ‘张三’ 已被python2转换为utf-8编码，因此已为字节字符串
‘\xe5\xbc\xa0\xe4\xbf\x8a’

>>> print ‘张三’
张三

>>> print u’张三’
张三

>>> print b’张三’
张三