为什么MySQL的utf8不是真UTF-8？

南风与鱼

于 2025-05-15 08:51:49 发布

阅读量877

点赞数 8

CC 4.0 BY-SA版权

分类专栏： MySQL 文章标签： utf8 utf8mb4 utf8mb3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_65931202/article/details/147968752

MySQL 专栏收录该内容

6 篇文章

订阅专栏

目录

一、字符集的本质与Unicode的演进

二、三者的核心差异

1. utf8mb3（已过时）

2. utf8mb4（推荐）

3. utf8的歧义陷阱

三、关键对比表格

四、实践建议

1. 新项目强制使用utf8mb4

2. 旧项目迁移指南

3. 版本适配注意事项

五、常见问题解答

Q1：转换字符集会导致数据丢失吗？

Q2：使用utf8mb4会影响性能吗？

Q3：如何查看当前字符集？

引言

在开发中，你是否遇到过存储Emoji（如😊）表情时出现乱码？或者明明设置了“UTF-8”却无法保存某些生僻汉字？这些问题很可能与MySQL的字符集选择有关。本文将深入解析MySQL中utf8mb4、utf8mb3和utf8的区别，帮助你做出更合理的选择。

一、字符集的本质与Unicode的演进

Unicode是国际通用的字符编码标准，旨在为所有语言和符号提供唯一标识。UTF-8作为Unicode的实现方式，通过1-4字节动态长度编码字符。但MySQL早期版本（5.5.3之前）并未完整实现UTF-8，导致了 utf8mb3和 utf8mb4的分歧。

二、三者的核心差异

1. utf8mb3（已过时）

定位：MySQL早期的“伪UTF-8”实现。

缺陷：

仅支持最多3字节的Unicode字符（Basic Multilingual Plane）。

无法存储Emoji（如😊）、部分汉字（如“𠀀”）及数学符号（如𝔄）。

不兼容Unicode 9.0及更高版本的新增字符。

现状：

MySQL 8.0.28起标记为过时，未来版本可能移除。

utf8是其别名（但强烈不建议依赖）。

2. utf8mb4（推荐）

定位：真正的UTF-8实现，兼容RFC 3629标准。

优势：

支持1-4字节字符，覆盖全部Unicode字符（包括辅助平面）。

完美兼容Emoji、生僻字、特殊符号（如𝕏、★）。

支持Unicode 15.0及未来扩展。

存储成本：

4字节字符比utf8mb3多1字节存储，但现代硬件可忽略此开销。

3. utf8的歧义陷阱

历史原因：MySQL 8.0前utf8默认指向utf8mb3。

现状：8.0+版本中utf8仍是utf8mb3的别名，但官方已明确建议弃用。

忠告：永远不要直接使用utf8，显式声明utf8mb4或utf8mb3。

三、关键对比表格

特性	utf8mb3	utf8mb4	utf8（别名）
最大字节数	3字节（BMP字符）	4字节（全Unicode）	同utf8mb3
Emoji支持	❌	✅	❌
MySQL版本兼容性	8.0前可用，现标记为过时	5.5.3+推荐	依赖版本，指向utf8mb3
索引长度限制	767字节（影响长字段索引）	3072字节（更灵活）	同utf8mb3
Unicode标准支持	仅支持到6.0（不完整）	完整支持至15.0+	同utf8mb3

四、实践建议

1. 新项目强制使用utf8mb4

-- 创建数据库
CREATE DATABASE my_app 
  CHARACTER SET utf8mb4 
  COLLATE utf8mb4_unicode_ci;

-- 创建数据表
CREATE TABLE users (
  id INT PRIMARY KEY,
  name VARCHAR(255) 
  CHARACTER SET utf8mb4 
  COLLATE utf8mb4_unicode_ci
);

2. 旧项目迁移指南

步骤1：修改表字符集

ALTER TABLE my_table 
  CONVERT TO CHARACTER SET utf8mb4 
  COLLATE utf8mb4_unicode_ci;

步骤2：检查索引长度
- 若原字段为VARCHAR(255)且使用utf8mb3，索引可能超过767字节限制，需调整字段长度或使用innodb_large_prefix配置。
步骤3：更新连接配置

# my.cnf 或 my.ini
[client]
default-character-set = utf8mb4

[mysqld]
character-set-server = utf8mb4
collation-server = utf8mb4_unicode_ci

3. 版本适配注意事项

MySQL 5.7以下：需手动配置字符集，默认可能仍为utf8mb3。
MySQL 8.0+：默认字符集为utf8mb4，但需检查是否被配置文件覆盖。

五、常见问题解答

Q1：转换字符集会导致数据丢失吗？

不会。ALTER TABLE CONVERT TO会保留原有数据，但建议操作前备份。

Q2：使用utf8mb4会影响性能吗？

几乎无感知。4字节字符仅在存储辅助平面字符时增加1字节，对现代存储和网络带宽影响微乎其微。

Q3：如何查看当前字符集？

SHOW CREATE DATABASE my_db;  -- 查看数据库
SHOW CREATE TABLE my_table;  -- 查看表
SHOW FULL COLUMNS FROM my_table;  -- 查看字段

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

南风与鱼 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。