千万级数据通过sqoop从hive orc分区表导出到mysql的提速经验

最新推荐文章于 2023-12-12 18:09:17 发布

H_Shun

最新推荐文章于 2023-12-12 18:09:17 发布

阅读量1.7k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： BigData 文章标签： hive sqoop

本文链接：https://blog.csdn.net/H_Shun/article/details/114026208

BigData 专栏收录该内容

7 篇文章

订阅专栏

本文讲述了如何优化从Hive到MySQL的数据导出过程，通过消除distributeby语句，使得每个分区包含多个文件，从而有效利用sqoop的-m参数提高并行度。原来耗时近2小时的任务，在调整后仅需15分钟，实现了显著的效率提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

数仓算好的数据需要导出到MySQL，但现有的操作流程导出千万级的数据耗时近2小时，2小时的导出速度无法忍耐，且失败成本较高，故急需优化提速。

Hive表为orc格式，按月分区，数据每月通过spark任务执行，并且insert 命令后会带上distribute by语句，保证每个月分区内只有一个文件
MySQL环境为开发环境，硬件配置极低

思路

正常我们执行sqoop命令导出数据时，都有固有的模板，类似：

sqoop export \
  --connect "${conn_info}" \
  --username ${username} \
  --password ${password} \
  --table ${target_table_name} \
  --hcatalog-database ${from_database_name} \
  --hcatalog-table ${from_table_name} \
  --hcatalog-partition-keys ${partition_key} \
  --hcatalog-partition-values "${partition_value}" \
  --columns "xxx,xxx,xxx,xxx,xxx" \
  --mapreduce-job-name ${your_mr_job_name} \
  -m 1