分库分表后，如何优雅实现高效分页查询？5大方法对比揭秘

最新推荐文章于 2025-07-13 20:22:56 发布

墨瑾轩

最新推荐文章于 2025-07-13 20:22:56 发布

阅读量908

点赞数 21

CC 4.0 BY-SA版权

分类专栏：数据库学习文章标签：服务器数据库 linux

本文链接：https://blog.csdn.net/z_344791576/article/details/143993978

数据库学习专栏收录该内容

82 篇文章

订阅专栏

🔥关注墨瑾轩，带你探索编程的奥秘！🚀
🔥超萌技术攻略，轻松晋级编程高手🚀
🔥技术宝库已备好，就等你来挖掘🚀
🔥订阅墨瑾轩，智趣学习不孤单🚀
🔥即刻启航，编程之旅更有趣🚀

在这里插入图片描述

嗨，小伙伴们！你们知道吗？分库分表是解决大规模数据存储和高性能查询的有效手段，但随之而来的问题也不少，特别是分页查询。今天，我们就来聊聊分库分表后如何优雅地实现高效的分页查询。🚀

第一部分：为什么分库分表后的分页查询这么难？

1.1 数据分布不均

分库分表后，数据被分散到多个数据库或表中，导致数据分布不均。传统的分页查询方法（如 LIMIT 和 OFFSET）在数据量较大时性能急剧下降。

1.2 全局排序困难

分库分表后，全局排序变得非常困难。每个分库或分表的数据都需要单独排序，然后再合并，这不仅增加了网络传输量，还增加了服务层的计算量。

1.3 跨库关联查询复杂

分库分表后，跨库关联查询变得更加复杂。传统的JOIN操作在多个数据库之间无法直接使用，需要额外的数据组装和处理。

第二部分：分库分表后分页查询的常见方法

2.1 全局查询法

全局查询法是最简单的方法，但也是性能最低的方法。它通过在每个分库中执行相同的分页查询，然后在服务层合并结果并重新排序，最终返回所需的数据。

2.1.1 示例代码

-- 在每个分库中执行相同的查询
SELECT * FROM t_order_1 ORDER BY time ASC LIMIT 0, 10;
SELECT * FROM t_order_2 ORDER BY time ASC LIMIT 0, 10;

-- 在服务层合并结果并重新排序
$mergedResults = array_merge($resultsFromOrder1, $resultsFromOrder2);
usort($mergedResults, function($a, $b) {
    return $a['time'] <=> $b['time'];
});
$pageResults = array_slice($mergedResults, 0, 10);

2.1.2 缺点

每个分库返回的数据量增多，网络传输量大。
服务层需要进行二次排序，增加了计算量。
随着页码的增加，性能急剧下降。

2.2 禁止跳页查询法

禁止跳页查询法通过限制用户只能逐页查询，从而避免了深度分页带来的性能问题。这种方法适用于移动端等场景，但不支持直接跳到指定页码。

2.2.1 示例代码

-- 查询第一页数据
SELECT * FROM t_order WHERE time > 0 ORDER BY time ASC LIMIT 10;

-- 查询第二页数据，使用上一页的最后一个时间戳
SELECT * FROM t_order WHERE time > :lastTime ORDER BY time ASC LIMIT 10;

2.2.2 优点

不会随着页码的增加而影响查询性能。
简单易实现，无需复杂的服务层处理。

2.2.3 缺点

不支持直接跳到指定页码。
需要业务层进行处理。

2.3 允许精度损失查询法

允许精度损失查询法通过牺牲一定的数据精度来提高查询性能。这种方法适用于对数据精度要求不高的场景。

2.3.1 示例代码

-- 查询每个分库的部分数据
SELECT * FROM t_order_1 ORDER BY time ASC LIMIT 0, 5;
SELECT * FROM t_order_2 ORDER BY time ASC LIMIT 0, 5;

-- 在服务层合并结果并重新排序
$mergedResults = array_merge($resultsFromOrder1, $resultsFromOrder2);
usort($mergedResults, function($a, $b) {
    return $a['time'] <=> $b['time'];
});
$pageResults = array_slice($mergedResults, 0, 10);

2.3.2 优点

减少了每个分库返回的数据量，网络传输量小。
服务层的计算量减少。

2.3.3 缺点

数据精度损失，可能返回不完全正确的结果。
适用于对数据精度要求不高的场景。

2.4 二次查询法

二次查询法通过两次查询来提高查询性能。第一次查询获取每个分库的部分数据，第二次查询根据第一次查询的结果进行精确查询。

2.4.1 示例代码

-- 第一次查询，获取每个分库的部分数据
SELECT * FROM t_order_1 ORDER BY time ASC LIMIT 0, 10;
SELECT * FROM t_order_2 ORDER BY time ASC LIMIT 0, 10;

-- 在服务层合并结果并找到最小的时间戳
$mergedResults = array_merge($resultsFromOrder1, $resultsFromOrder2);
usort($mergedResults, function($a, $b) {
    return $a['time'] <=> $b['time'];
});
$minTime = $mergedResults[0]['time'];

-- 第二次查询，根据最小时间戳进行精确查询
SELECT * FROM t_order_1 WHERE time >= :minTime ORDER BY time ASC LIMIT 10;
SELECT * FROM t_order_2 WHERE time >= :minTime ORDER BY time ASC LIMIT 10;

-- 再次在服务层合并结果并重新排序
$finalResults = array_merge($resultsFromOrder1, $resultsFromOrder2);
usort($finalResults, function($a, $b) {
    return $a['time'] <=> $b['time'];
});
$pageResults = array_slice($finalResults, 0, 10);

2.4.2 优点

查询性能较高，避免了深度分页带来的性能问题。
数据精度高，返回的结果准确。

2.4.3 缺点

实现复杂，需要两次查询和多次排序。
对服务层的计算能力要求较高。

2.5 中间表法

中间表法通过引入一个中间表来记录数据所在的目标表，从而简化分页查询的复杂度。这种方法适用于数据量较大且需要频繁分页查询的场景。

2.5.1 示例代码

-- 创建中间表
CREATE TABLE order_index (
    id INT AUTO_INCREMENT PRIMARY KEY,
    order_id INT NOT NULL,
    shard_id INT NOT NULL
);

-- 插入数据时记录到中间表
INSERT INTO order_index (order_id, shard_id) VALUES (:orderId, :shardId);

-- 查询时通过中间表定位目标表
SELECT * FROM order_index WHERE shard_id = :shardId ORDER BY id LIMIT 0, 10;

-- 根据中间表的结果查询目标表
SELECT * FROM t_order_1 WHERE id IN (:ids);

2.5.2 优点

简化了分页查询的复杂度。
查询性能较高，避免了深度分页带来的性能问题。

2.5.3 缺点

需要额外维护中间表，增加了系统复杂度。
插入数据时需要额外操作。

第三部分：如何选择合适的方法？

3.1 根据业务需求选择

全局查询法：适用于数据量较小且对性能要求不高的场景。
禁止跳页查询法：适用于移动端等场景，对数据精度要求不高。
允许精度损失查询法：适用于对数据精度要求不高的场景。
二次查询法：适用于数据量较大且对性能和数据精度要求较高的场景。
中间表法：适用于数据量较大且需要频繁分页查询的场景。

3.2 根据系统架构选择

分布式系统：推荐使用二次查询法或中间表法，这些方法能够更好地适应分布式架构。
单体系统：可以选择全局查询法或禁止跳页查询法，这些方法实现简单，易于维护。

3.3 根据团队技术栈选择

Java团队：可以考虑使用ShardingSphere等分库分表中间件，这些中间件提供了丰富的分页查询优化功能。
Python团队：可以考虑使用Django等框架提供的分页查询功能，这些框架通常内置了优化机制。

第四部分：总结

通过本文的详细介绍，相信你已经明白了分库分表后如何优雅地实现高效的分页查询。无论是全局查询法、禁止跳页查询法、允许精度损失查询法、二次查询法还是中间表法，都有各自的优缺点，选择合适的方法需要根据业务需求、系统架构和团队技术栈综合考虑。希望这篇文章能帮助你在实际工作中更加得心应手，确保系统的稳定性和性能！如果你有任何问题或建议，欢迎在评论区留言交流。😊🌟