
大数据技术
大数据入门到精通
jiedaodezhuti
目前工作主要涉及大数据平台,数据治理方面的工作;
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop组成
时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源调度,耦合性较大;时代,新增了yarn,主要负责资源的调度,MapReduce仅负责运算;时代,在组成上没有变化;原创 2023-10-15 22:52:54 · 962 阅读 · 0 评论 -
大数据发展史
2006年3月份,MapReduce和Nutch Distributed File System(NDFS)被纳入到Hadoop项目,Hadoop正式诞生;2001年底Lucence成为Apache基金会的一个子项目,当时为了解决存储海量数据困难,检索海量速度慢,可以说Google是hadoop的思想之源;1)高可靠性:hadoop底层维护多个数据副本,即使某个计算或者存储出现故障,也不会丢失数据;3) 高效性:在MapReduce下,Hadoop工作是并行的,这样能加速任务的处理速度;原创 2023-10-13 23:38:10 · 562 阅读 · 0 评论 -
大数据概念
大数据是指无法使用常规软件工具在一定时间范围内进行捕捉、管理和处理的数据集合,需要使用新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产(参考百度)。存储单位:最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。种类(Variety):数据类型的多样性(网络日志、音频、视频、图片、地址位置等信息);容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;二、特征(4V1C)原创 2023-10-07 23:49:20 · 300 阅读 · 0 评论 -
大数据必备shell工具
'' 单引号不解析里面变量的值 "" 双引号解析里面变量的值 嵌套 :看谁在最外面 3)经常使用的场景。1) 常用的shell工具。c.与mysql的导入导出(数据同步)d.数仓层级内部(ETL开发)a.分发脚本(搭建集群)b.启停脚本(启动集群)原创 2023-10-07 23:18:31 · 115 阅读 · 0 评论 -
大数据必备linux高级命令
2)查看进程 查看端口号 查看磁盘使用情况 查看某个进程内存。原创 2023-10-07 23:16:01 · 79 阅读 · 0 评论