
spark
文章平均质量分 69
今天该取什么名字好
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark wordcount
附上依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.5</version></dependency>import org.apache.spark.rdd.RDDimport org.apache.spa.原创 2022-03-18 13:12:05 · 1927 阅读 · 0 评论 -
spark整合hive
spark sql在编译时是不包含hive表,开启hive依赖后,可以访问hive中的表以及UDF函数通常我们用spark整合hive,说的是spark接管外部已经使用很长时间的hive,里面大大小小的表非常多,为了提高hive的查询效率,会使用spark来代替原来的mapreduce计算引擎,提升计算效率1、在hive的hive-site.xml修改一行配置,增加了这一行配置之后,以后在使用hive之前都需要先启动元数据服务<property><name>hive.原创 2022-03-09 03:08:12 · 1232 阅读 · 0 评论 -
spark sql idea常规操作
maven依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.5</version></dependency>1、常规准备1)写代码创建环境2)导入隐式转换3)需要使用到sql的需要先创建视图4)读取..原创 2022-03-09 01:21:24 · 471 阅读 · 0 评论 -
spark sql笔记1
目录SparkSql的特点DataFrameDataSetSparkSql语法创建DataFrame的方法SQL语法DSL语法RDD、DataFrame、DataSet联系Spark sql的前身是Shark,Shark是一个为Spark设计的大规模数据仓库系统,它与Hive兼容。但是Shark继承了Hive的大且复杂的代码使得Shark很难优化和维护。于是后面就分化出了两个框架,一个是SparkSql,一个是hive on spark与hive和mapred原创 2022-03-08 15:08:04 · 2789 阅读 · 0 评论 -
spark复习
在学习spark之前我们应该已经学习了Scala语法,spark是通过scala语言编写的,对scala语言的支持较好一、spark的搭建模式local:一般用于测试代码和学习的standalone:用的是spark自身的集群,spark自身提供了计算资源,由一个主节点Master和其余的从节点Worker构成提交任务有2种方式,cient(客户端)和cluster(集群)模式,client模式的driver端在本地启动,运行日志也会在本地打印,数据量一大,所有日志拉到一台机器上导致网卡原创 2022-01-05 21:57:34 · 1122 阅读 · 0 评论 -
spark算子
转换算子和行为算子,懒执行是什么?转换算子:RDD的转换操作是:一个RDD的经过转换操作后,返回一个新的RDD转换算子都是懒执行的,你在里面写好了逻辑,单独一个这样是不会运行的,需要操作算子使用了这些RDD才会执行里面的逻辑行为算子:行为算子用于执行计算并按指定的方式输出结果。行为算子接受 RDD,但是返回非 RDD,即输出一个值或者结果。在 RDD 执行过程中,真正的计算发生在行为算子操作之前。spark程序中有一个操作算子,就会生成相同数量的job懒执行的证明:写个l.原创 2021-12-30 20:48:53 · 1921 阅读 · 0 评论