Spark on Hive
1、spark on hive介绍
- (1)就是通过sparksql,加载hive的配置文件,获取到hive的元数据信息
- (2)spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据
- (3)接下来就可以通过spark sql来操作hive表中的数据
2、spark on hive 配置
- (1)将hive安装目录下conf/hive-site.xml拷贝到spark的conf目录下
- (2)同时把hive安装目录下lib目录中的mysql驱动包,拷贝到spark的jars目录
- (3)分发所有配置和拷贝mysql驱动到spark的其他节点
- (4) 启动spark-sql 就可以操作hive的sql语句了。
- 注意需要添加配置
- –conf
spark.sql.warehouse.dir=hdfs://node1:9000/user/hive/warehouse
- –conf
3、操作实例
执行命令:
spark-sql --master spark://node1:7077 --executor-memory 1g --total--executor-cores 2 --conf spark.sql.warehouse.dir=hdfs://node1:9000/user/hive/warehouse
操作:
show databases;
喜欢就点赞评论+关注吧
感谢阅读,希望能帮助到大家,谢谢大家的支持!