
大数据开发
文章平均质量分 55
半岛铁盒@
打油!干饭人!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习笔记(四)
聚类算法原创 2023-10-29 20:59:44 · 163 阅读 · 0 评论 -
return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed during runtime.
spark配置原创 2022-12-02 13:55:58 · 1073 阅读 · 1 评论 -
基础数据仓库环境搭建(三)Zookeeper的安装与配置和操作
Zookeeper概述Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目。它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等工作机制领导者(leader),负责进行投票的发起和决议,更新系统状态学习者(learner),包括跟随者(follower)和观察者(observer),follower用于接受客户端请求并给客户端返回结果,在选主过程中参与投票 Observer可以接受客户端连接,将写请求转发给leader,但obser原创 2021-12-17 16:16:59 · 1655 阅读 · 0 评论 -
基础数据仓库环境搭建(二) Hadoop的环境搭建
Apache Hadoop -分布式处理框架。集成了MapReduce(并行计算)、YARN(作业调度)和HDFS(分布式文件系统)。1. 前期准备1.准备3个虚拟机节点2.Linux链接工具Xshell或者MobaXterm3.三台节点配置了免密登录2. Hadoop下载链接:https://pan.baidu.com/s/1iaKxgeQHE66OJaOs0gUKYQ 提取码:85203.配置说明主要是在虚拟机上搭建模拟生产环境的伪分布模式伪分布模式(Pseudo-Distr.原创 2021-12-13 17:00:13 · 1845 阅读 · 0 评论 -
基础数据仓库环境搭建(一)数据仓库概述
数据仓库简介数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制.数据仓库的特点效率足够高数据质量扩展性之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,未来不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运原创 2021-12-13 16:00:52 · 1393 阅读 · 0 评论 -
Hadoop,Yarn,Zookeeper,kafka数据仓库集群命令集合
1.HDFSstart-dfs.shstop-dfs.sh2.Yarn;start-yarn.shstop-yarn.sh要先启动ZooKeeper 再启动Kafka 顺序不可以改变。先关闭kafka ,再关闭zookeeper。3.ZookeeperzkServer.sh startzkServer.sh stop检查ZooKeeper状态:zkServer.sh status4.kafka路径根据自己的配置去修改启动kafka-server-start.sh -原创 2021-12-13 15:26:07 · 877 阅读 · 0 评论