
spark
文章平均质量分 58
spark集群搭建及运算
托马斯-酷涛
知不足而奋进,望远山而前行
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一零四八、Spark数据清洗 模块C:数据清洗与挖掘分析(4)
餐饮外卖平台的核心价值体现在配送,而配送的价值则依赖于商家与客户的双向选择。外卖平台通常会通过内容激活消费者和商家两个群体的活跃度。消费者会参考平台展示的内容选择商家,商家也会以消费者评价与平台统计数据为依据调整策略,由此再吸引更多的用户下单、评论、形成正向循环。保证配送的时效与品质是从优化用户体验的角度,吸引更多的用户参与,进而带动商家不断入驻。由此,商家、消费者、骑手在平台上形成越来越多的真实可靠的数据,帮助消费者更好的做出消费决策,同时促进商家提高服务质量。原创 2023-01-18 12:38:50 · 849 阅读 · 1 评论 -
一零四七、Spark数据清洗 模块C:数据清洗与挖掘分析(3)
餐饮外卖平台的核心价值体现在配送,而配送的价值则依赖于商家与客户的双向选择。外卖平台通常会通过内容激活消费者和商家两个群体的活跃度。消费者会参考平台展示的内容选择商家,商家也会以消费者评价与平台统计数据为依据调整策略,由此再吸引更多的用户下单、评论、形成正向循环。保证配送的时效与品质是从优化用户体验的角度,吸引更多的用户参与,进而带动商家不断入驻。由此,商家、消费者、骑手在平台上形成越来越多的真实可靠的数据,帮助消费者更好的做出消费决策,同时促进商家提高服务质量。原创 2023-01-11 09:50:23 · 501 阅读 · 1 评论 -
一零四六、Spark性能调优
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业进行合理的调优,Spark作业的执行速度可能会很慢,这样就完全体现不出Spark作为一种快速大数据计算引擎的优势来。因此,想要用好Spark,就必须对其进行合理的性能优化。Spark的性能调优实际原创 2023-01-07 12:15:21 · 1120 阅读 · 8 评论 -
一零四三、Spark数据清洗 模块C:数据清洗与挖掘分析(2)
spark数据处理原创 2022-12-25 11:03:35 · 681 阅读 · 5 评论 -
一零四二、Spark数据清洗 模块C:数据清洗与挖掘分析(1)
spark数据处理原创 2022-12-23 08:54:35 · 892 阅读 · 0 评论 -
一零三六、spark2.0中自定义字段约束过多引发的思考
SparkCore的数据抽象:RDDSparkStreaming的数据抽象:DStream,底层是RDDSparkSQL的数据抽象:DataFrame和DataSet,底层是RDDDataFrameDataFrame = RDD - 泛型 + Schema约束(指定了字段名和类型) + SQL操作 + 优化DataFrame 是在RDD的基础之上做了进一步的封装,支持SQL操作DataFrame 是一个分布式表DataSetDataSet = DataFrame + 泛型原创 2022-10-09 10:39:33 · 796 阅读 · 0 评论 -
一零三五、Spark-streaming实现获取流数据
nc是netcat的简称,原本是用来设置路由器,我们可以利用它向某个端口发送数据。程序运行时,终端开启9999端口模拟输入。控制台每隔10秒获取一次流数据,如图。虚拟机终端安装netcat。原创 2022-10-08 18:15:39 · 972 阅读 · 0 评论 -
一零三四、spark读取保存csv,并指定其参数
spark读取保存csv,并指定其参数原创 2022-10-08 15:35:28 · 1602 阅读 · 0 评论 -
一零三三、无标准分割符的数据如何获取每个元素
数据杂乱无章,且没有使用标准的分割符进行分割,这时候我们该如何获取每个元素?使用正则匹配充当分隔符("\\s+")即可拿到每个数据原创 2022-10-08 10:48:57 · 386 阅读 · 0 评论 -
一零三二、map 和 flatMap 的区别
map 和 flatMap 的区别原创 2022-10-07 16:54:17 · 670 阅读 · 0 评论 -
一零二九、scalac: Token not found: C:\Users\Tuomasi\AppData\Local\JetBrains\IdeaIC2021
找到scal插件能更新的话更新一下就好了,不能的话卸载重装一下scala插件,重启idea。原创 2022-09-29 17:57:57 · 763 阅读 · 0 评论 -
一零二六、sql语句报错
Exception in thread "main" org.apache.spark.sql.AnalysisException: cannot resolve '`abc`' given input columns: [该订单接单时效, city_name, first_auditor_id, 客户取消数, second_auditor_role, request_id, min_distance_after_edit, updated_at,原创 2022-09-10 10:50:30 · 2227 阅读 · 1 评论 -
一零一九、岗位数据分析(Spark)
分析岗位数据如下要求分析不同学历的平均薪资(每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均)分析不同岗位的平均薪资(求每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均)分析各公司提供的岗位。......原创 2022-08-01 08:28:30 · 1379 阅读 · 0 评论 -
一零一二、Spark- RDD-DF-DS 相互转换
Spark- RDD-DF-DS 相互转换原创 2022-06-20 09:53:17 · 961 阅读 · 1 评论 -
一零一一、import spark.implicits._写完立即消失
import spark.implicits._写完立即消失原创 2022-06-20 08:54:02 · 807 阅读 · 1 评论 -
一零一零、java.net.URISyntaxException: Relative path in absolute URI: file:E:/testspark/spark-warehouse
Caused by: java.net.URISyntaxException: Relative path in absolute URI: file:E:/testspark/spark-warehouse at java.net.URI.checkPath(URI.java:1822) at java.net.URI.(URI.java:745) at org.apache.hadoop.fs.Path.initialize(Path.java:203) ... 17 more原创 2022-06-20 08:23:22 · 782 阅读 · 0 评论 -
一零零八、 File “/spark/python/lib/pyspark.zip/pyspark/cloudpickle“ line 5,No module name‘jieba’
pyspark 中 ModuleNotFoundError: No module named 'jieba' 完美解决原创 2022-06-04 17:59:04 · 1319 阅读 · 8 评论 -
九十五、Spark-SparkSQL(打包集群运行最终版)
打包集群运行(wordcount案例)极简版原创 2022-04-11 20:13:58 · 957 阅读 · 1 评论 -
九十四、Spark-SparkSQL(整合Hive)
读取本地文件上传至Hive数据仓库原创 2022-04-10 11:11:25 · 2563 阅读 · 12 评论 -
九十二、Spark-SparkSQL(统计电影平均分Top10)
Spark-SparkSQL(统计电影平均分Top10)原创 2022-04-07 17:15:56 · 3418 阅读 · 2 评论 -
九十一、Spark-SparkSQL(多数据源处理)
Spark-SparkSQL(多数据源处理)原创 2022-04-07 16:07:05 · 1060 阅读 · 0 评论 -
九十、Spark-SparkSQL(查询sql)
Spark 查询SQL原创 2022-04-05 19:45:21 · 2692 阅读 · 2 评论 -
六十七、Spark-两种运行方式(本地运行,提交集群运行)
本地运行:在IDEA中直接运行控制台输出结果即可集群运行:在本地将程序打包为 jar,提交至集群运行其程序(将结果上传至hdfs)原创 2022-02-17 12:38:14 · 7383 阅读 · 14 评论 -
六十五、Spark-综合案例(搜狗搜索日志分析)
业务逻辑:针对SougoQ用户查询日志数据中不同字段,使用SparkContext读取日志数据,封装到RDD数据集中,调用Transformation函数和Action函数进行处理不同业务统计分析...原创 2022-01-27 16:00:00 · 7431 阅读 · 9 评论 -
六十四、Spark-分别统计各个单词个数及特殊字符总个数
广播变量(Broadcast Variables):广播变量用来把变量在所有节点的内存之间进行共享,在每个机器上缓存一个只读的变量,而不是为机器上的每个任务都生成一个副本,简单理解:减少内存,减小计算压力;原创 2022-01-26 17:38:44 · 5039 阅读 · 2 评论 -
六十三、Spark-读取数据并写入数据库
需求说明:使用Spark流式计算 将数据写入MySQL,并读取数据库信息进行打印原创 2022-01-26 11:45:26 · 5967 阅读 · 7 评论 -
六十二、Spark-Standlone独立集群(上传HDFS进行测试)
Spark官网:(https://spark.apache.org/)Spark是一个大数据领域统一的数据分析/计算/处理引擎目录环境配置一、解压更名二、配置环境变量三、配置Spark参数四、环境测试五、提交任务六、结果查看七、查看spark任务web-ui八、停止集群standalone模式下的模块架构环境配置主机名 master slave1 slave2 类型 master slav..原创 2022-01-23 09:00:00 · 917 阅读 · 10 评论 -
五十、Spark组件部署(MINI版)
前景连接:Hadoop HA部署(MINI版)https://blog.csdn.net/m0_54925305/article/details/121566611?spm=1001.2014.3001.5501环境准备:编号 主机名 类型 用户 密码 1 master1-1 主节点 root passwd 2 slave1-1 从节点 root passwd 3 slave1-2 从节点原创 2021-11-30 10:07:47 · 7697 阅读 · 3 评论 -
十二、Spark的安装与部署详情(Local模式,Standalone模式,Spank on YARN模式)
Spark环境搭建Spark的部署方式目前Spark支持4种部署方式,分别是Local、Standalone、Spark on Mesos和 Spark on YARN。Local模式是单机模式。Standalone模式即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。Spark On Mesos模式是官方推荐的模式。Spark运行在Mesos上会比运行在YARN上更加灵活。Spark On YARN模式是一种很有前景的部署模式。在应用中通常需要根据实...原创 2021-07-22 18:57:13 · 2493 阅读 · 0 评论