风满楼i
CC
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
极客时间_FlinkSQL 实战
极客时间_FlinkSQL 实战原创 2023-02-12 14:50:22 · 907 阅读 · 0 评论 -
尚硅谷_ClickHouse
第 1 章 ClickHouse 入门ClickHouse 的特点高吞吐写入能力ClickHouse 采用类 LSM Tree的结构,数据写入后定期在后台 Compaction。通过类 LSM tree的结构,ClickHouse 在数据导入时全部是顺序 append 写,写入后数据段不可更改,在后台compaction 时也是多个段 merge sort 后顺序写回磁盘。顺序写的特性,充分利用了磁盘的吞吐能力,即便在 HDD 上也有着优异的写入性能。数据分区与线程级并行ClickHouse 将原创 2022-02-26 14:39:32 · 319 阅读 · 0 评论 -
尚硅谷大数据技术之Sqoop
一、 Sqoop 安装下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/测试 Sqoop 是否能够成功连接数据库bin/sqoop list-databases --connect jdbc:mysql://hadoop102:3306/ --username root --password 000000二、 Sqoop 的简单使用案例1. RDBMS 到 HDFS1)在 Mysql 中新建一张表并插入一些数据$ mysql -uroot原创 2021-08-22 15:07:14 · 323 阅读 · 0 评论 -
大数据技术之 Hive UDF
一、自定义函数当 Hive 提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数。UDF(User-Defined-Function)一进一出UDAF(User-Defined Aggregation Function)聚集函数,多进一出,类似于:count/max/minUDTF(User-Defined Table-Generating Functions)一进多出,如 lateral view explode()1. 自定义 UDF 函数0)需求:自定义一个 UDF原创 2021-08-15 15:19:19 · 305 阅读 · 0 评论 -
尚硅谷Shell教程(shell自动化编程精讲)_笔记
在线编译:https://c.runoob.com/compile/18哔哩哔哩:https://www.bilibili.com/video/BV1hW41167NW?p=7&spm_id_from=pageDriver一、Shell中的变量(1)常用系统变量:$HOME、$PWD、$SHELL、$USER(2)基本语法定义变量:变量=值撤销变量:unset 变量声明静态变量:readonly 变量,注意:不能unset(3)变量定义规则等号两侧不能有空格;在bash中,变量默原创 2021-07-25 16:03:13 · 744 阅读 · 4 评论 -
尚硅谷_尚硅谷离线数据仓库项目(阿里云离线数仓)_笔记
网址:https://www.bilibili.com/video/BV1AJ411Q7ox?p=29&spm_id_from=pageDriver一、项目架构设计1.1 阿里云技术框架1.2 技术选型1.3 系统数据流程设计二、数据生成模块三、数据采集模块3.1 购买 ECS 云服务器3.2 基础环境准备3.3 FlumeFlume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。3.4原创 2021-07-11 15:13:39 · 1369 阅读 · 0 评论 -
黑马_大数据千亿级数仓实战_笔记
一、kettle介绍二、数据仓库开发1. 表结构介绍和导入数据2. 缓慢变化维a.拉链表存储历史快照代码实现操作步骤:在原有dw层表上,添加额外的两列:生效日期(dw_start_date)、失效日期(dw_end_date)只同步当天修改的数据到ods层拉链表算法实现:编写SQL处理当天最新的数据;编写SQL处理dw层历史数据,重新计算之前的dw_end_date;拉链表的数据为:当天最新的数据 UNION ALL 历史数据拉链表的数据为:当天最新的数据 UNION ALL 历史数据代原创 2021-06-24 21:42:13 · 644 阅读 · 2 评论 -
大数据技术之 Hive
一、Hive 基本概念1)Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。2)Hive 本质:将 HQL 转化成 MapReduce 程序;Hive 处理的数据存储在 HDFSHive 分析数据底层的实现是 MapReduce执行程序运行在 Yarn 上3)Hive 架构原理二、Hive安装部署1. 安装 Hive1)把 apache-hive-3.1.2-bin.tar.gz 上传到 linux 的/opt/softw原创 2021-06-07 20:27:23 · 1549 阅读 · 7 评论 -
hadoop环境
集群Linux环境搭建注意事项1.windows系统确认所有的关于VmWare的服务都已经启动2.确认好VmWare生成的网关地址3. 确认VmNet8网卡已经配置好了IP地址和DNS复制虚拟机虚拟机修改Mac和IP1.集群规划node01 192.168.174.1002.设置ip和Mac地址① 每台虚拟机更改mac地址vim /etc/udev/rules.d/70-persistent-net.rules② 每台虚拟机更改IP地址:vim /etc/sysconfig/n原创 2021-05-05 10:20:51 · 154 阅读 · 0 评论 -
Linux常用命令汇总
https://blog.csdn.net/weixin_44895651/article/details/105289038?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161801444716780269867497%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=161801444716780269867497&biz_i原创 2021-04-10 17:20:43 · 144 阅读 · 0 评论 -
Hadoop入门教程_笔记
spark在hadoop肩膀上可以让大数据飞的更高。一、总结1.概念Hadoop就是存储海量数据和分析海量数据的工具,是专为离线和大规模数据分析而设计的,其核心部件是HDFS与MapReduce。HDFS为海量的数据提供了存储。可以理解为一个分布式的,有冗余备份的,可以动态扩展的用来存储大规模数据的大硬盘。MapReduce为海量的数据提供了计算。可以理解成为一个计算引擎,按照MapReduce的规则编写Map计算/Reduce计算的程序,可以完成计算任务。2.怎么使用HadoopHadoo原创 2021-03-14 11:18:08 · 229 阅读 · 0 评论