DuckDB PostgreSQL扩展：pg_duckdb 使用教程

最新推荐文章于 2025-06-25 09:07:08 发布

施谨贞Des

最新推荐文章于 2025-06-25 09:07:08 发布

阅读量654

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/gitblog_00730/article/details/146720846

DuckDB PostgreSQL扩展：pg_duckdb 使用教程

1. 项目介绍

pg_duckdb 是一个为 PostgreSQL 提供的扩展，它将 DuckDB 的高性能列式数据库引擎和特性嵌入到 PostgreSQL 中。通过使用 pg_duckdb，开发者可以构建高性能的分析型和数据密集型应用。pg_duckdb 是由 DuckDB 社区与合作伙伴 Hydra 和 MotherDuck 共同开发的。

2. 项目快速启动

以下是如何快速启动并使用 pg_duckdb 的步骤：

Docker 启动

首先，确保已经安装了 Docker。然后运行以下命令来启动 pg_duckdb 容器：

docker run -d -e POSTGRES_PASSWORD=duckdb pgduckdb/pgduckdb:16-main

如果您希望使用 MotherDuck，您需要提供一个 MotherDuck 访问令牌：

export MOTHERDUCK_TOKEN=<your personal MD token>
docker run -d -e POSTGRES_PASSWORD=duckdb -e MOTHERDUCK_TOKEN pgduckdb/pgduckdb:16-main

启动容器后，您可以使用 psql 连接到数据库：

psql postgres://postgres:duckdb@127.0.0.1:5432/postgres

从源代码编译

如果您希望从源代码编译 pg_duckdb，您需要以下环境：

PostgreSQL 14-17
Ubuntu 22.04-24.04 或 MacOS
构建 PostgreSQL 扩展的标准工具集
构建 DuckDB 所需的工具

克隆仓库后，运行以下命令来构建和安装：

make install

在您的 postgresql.conf 文件中添加 pg_duckdb 到 shared_preload_libraries：

shared_preload_libraries = 'pg_duckdb'

然后创建 pg_duckdb 扩展：

CREATE EXTENSION pg_duckdb;

3. 应用案例和最佳实践

以下是使用 pg_duckdb 的一些常见场景和最佳实践：

查询优化：对于复杂的分析查询，可以使用 DuckDB 引擎来加速执行。确保在查询中使用 DuckDB 函数和特性。
数据集成：利用 pg_duckdb 直接从对象存储读取 Parquet、CSV 和 JSON 文件，实现数据集成。
数据导出：将查询结果或整个表导出到 Parquet 格式存储在对象存储中。

4. 典型生态项目

Hydra：一个 Python 包，可以用来部署 pg_duckdb 到本地或云端。
MotherDuck：提供数据存储和管理的服务，与 pg_duckdb 集成可以实现更丰富的数据分析功能。

以上是 pg_duckdb 的使用教程，希望对您的项目开发有所帮助。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考