Mysql字符集

MySQL 字符集


MySQL5.7默认字符集是Latin1拉丁,MySQL8默认字符集是UTF-8 (utf8mb4)

字符集级别可以分为:服务器级别、数据库级别、表级别、列级别

UTF8字符集


在 MySQL 中,“utf8” 和 “utf8mb4” 是两种字符集(字符编码)选项。

utf8:
“utf8” 是 MySQL 5.5.3 及之前版本的默认字符集,它支持最多三字节的 UTF-8 编码。尽管名字中带有 “utf8”,但实际上它并不支持所有的 Unicode 字符,包括一些特殊字符如表情符号等,因为它只支持最多三个字节的编码。

utf8mb4:
“utf8mb4” 是 MySQL 5.5.3 之后版本引入的字符集选项,也是 MySQL 5.5.3 及之后版本的默认字符集。“mb4” 代表 “most bytes 4”,也就是它支持最多四字节的 UTF-8 编码。因此,“utf8mb4” 能够完全支持 Unicode 字符集,包括表情符号等特殊字符。

对于大多数情况下,特别是需要支持表情符号、特殊符号或其他非常用字符的情况,建议使用 “utf8mb4” 字符集,以免出现字符存储和处理的问题。

如果你的 MySQL 版本是 5.5.3 或更高,一般情况下推荐使用 “utf8mb4” 字符集,特别是在创建新的数据库或表时。当然,如果已经在使用 “utf8”,也可以在需要时通过修改表的字符集来切换到 “utf8mb4”。

请注意,在 MySQL 中,“utf8” 和 “utf8mb4” 的存储方式略有不同,“utf8mb4” 的存储空间会稍微多一些,因为它支持更多的字节。所以在切换字符集时,也要注意已有数据的存储空间可能会增加。

比较规则
在 MySQL 中,字符集比较规则后缀用于指定不同的排序规则。排序规则影响字符在比较和排序时的行为,因为在不同的语言和地区,对字符的排序方式可能有所不同。MySQL 支持多种字符集比较规则后缀,常用的有以下几种:

_bin:表示二进制排序,它是最快速的排序方式,直接按照字符的二进制编码进行排序。注意,这种排序方式对大小写敏感,而且不会考虑字符的语言和地区差异。

_ci:表示不区分大小写的排序,它会忽略字符的大小写,进行排序。例如,“A” 和 “a” 在排序时会被认为相等。

_cs:表示区分大小写的排序,它会根据字符的大小写进行排序。例如,“A” 和 “a” 在排序时会被认为不相等。

_ai:表示不区分大小写的排序并且对字符进行重音处理,也称为accent-insensitive排序。例如,对于一些特定字符,如字母 “é” 和 “e” 在排序时会被认为相等。

_as:表示区分大小写的排序并且对字符进行重音处理,也称为accent-sensitive排序。例如,对于一些特定字符,如字母 “é” 和 “e” 在排序时会被认为不相等。

在字符集名称后添加上述后缀,可以指定不同的排序规则。例如,“utf8mb4_general_ci” 表示使用 “utf8mb4” 字符集,并采用不区分大小写的排序规则。

请注意,不同的字符集可能支持不同的排序规则,而且不是所有字符集都支持所有的排序规则。在选择排序规则时,应根据具体的需求和数据特性选择合适的排序方式。

# 查看gbk比较规则
SHOW COLLATION LIKE 'gbk%';
# 查看utf8比较规则
SHOW COLLATION LIKE 'utf8%';
# 查看具体数据库字符集
SHOW CREATE DATABASE 数据库名;
# 修改具体数据库字符集
# 修改了数据库默认字符集比较规则后,原来已经创建的表字符集不会改变,如果需要应该再单独修改
ALTER DATABASE 数据库名 DEFAULT CHARACTER SET 'utf8' COLLATE 'utf8_general_ci';


说明:

utf8_unicode_ci和utf8_general_ci对中、英文没有实质差别

utf8_general_ci校对速度快,准确度稍微差

utf8_unicode_ci准确度高,但校对速度慢

一般情况使用utf8_general_ci就够了,但如果需要用到德语、法语或者俄语,一定要用utf8_unicode_ci。
————————————————
 

### MySQL 字符集设置及常见问题 MySQL字符集(Character Set)和排序规则(Collation)是数据库管理中的重要部分,直接影响数据存储、传输以及查询结果的准确性。以下是关于 MySQL 字符集设置及其常见问题的详细说明。 #### 1. 字符集与排序规则的基本概念 字符集定义了数据库如何存储字符数据,而排序规则则定义了字符数据在比较时的行为方式。例如,在字符序 `utf8_general_ci` 下,大小写不敏感,字符 "a" 和 "A" 是等价的[^3]。 #### 2. 字符集支持的层次结构 MySQL字符集支持可以细化到四个层次:服务器(server)、数据库(database)、数据表(table)和连接(connection)。每一层都可以独立设置字符集,但若未显式指定,则会继承上一层的默认值[^2]。 #### 3. 默认字符集的来源 如果在创建数据库或数据表时未明确指定字符集MySQL 将使用默认配置。默认字符集的优先级顺序如下: - 连接级别(Connection Level) - 数据库级别(Database Level) - 服务器级别(Server Level) 可以通过以下命令查看当前的字符集配置: ```sql SHOW VARIABLES LIKE 'character_set%'; SHOW VARIABLES LIKE 'collation%'; ``` #### 4. 关键字符集变量 MySQL 中有多个与字符集相关的变量,其中最重要的是以下几个: - **character_set_client**:客户端发送的数据使用的字符集- **character_set_connection**:连接中用于转换字符集的中间字符集- **character_set_results**:查询结果返回给客户端时使用的字符集。 这些变量共同决定了数据在客户端与服务器之间的传输过程中的编码转换[^1]。 #### 5. 设置字符集的方法 可以通过多种方式设置 MySQL字符集- **全局设置**:修改 MySQL 配置文件(如 `my.cnf` 或 `my.ini`),添加或修改以下内容: ```ini [mysqld] character-set-server=utf8mb4 collation-server=utf8mb4_general_ci ``` - **会话设置**:通过 SQL 命令临时更改会话级别的字符集: ```sql SET NAMES utf8mb4; ``` - **C API 设置**:在使用 MySQL C API 时,可以通过 `mysql_options` 函数设置连接字符集,避免显式调用 `SET NAMES`[^4]。 #### 6. 常见问题及解决方案 以下是与 MySQL 字符集相关的常见问题及其解决方法: - **乱码问题**:通常是因为字符集不匹配导致的。确保从客户端到服务器再到存储的所有环节都使用相同的字符集。例如,将所有字符集统一为 `utf8mb4`。 - **插入失败问题**:如果插入的数据包含超出目标字符集范围的字符(如 `latin1` 不支持的字符),会导致插入失败或数据被替换为问号(`?`)。确保目标列的字符集支持所有可能的字符[^5]。 - **排序问题**:不同的排序规则会影响查询结果的排序顺序。选择合适的排序规则以满足业务需求。 #### 7. 示例代码 以下是一个完整的示例,展示如何设置 MySQL字符集并验证其效果: ```sql -- 修改数据库字符集 ALTER DATABASE my_database CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci; -- 修改表字符集 ALTER TABLE my_table CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci; -- 查看当前字符集配置 SHOW VARIABLES LIKE 'character_set%'; SHOW VARIABLES LIKE 'collation%'; ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值