大数据_风满楼i的博客-CSDN博客

大数据

文章平均质量分 77

大数据

文章数：11 文章阅读量：6687 文章收藏量：10

作者: 风满楼i

展开

专栏收录文章

极客时间_FlinkSQL 实战

极客时间_FlinkSQL 实战

原创 2023-02-12 14:50:22 · 907 阅读 · 0 评论
尚硅谷_ClickHouse

第 1 章 ClickHouse 入门ClickHouse 的特点高吞吐写入能力ClickHouse 采用类 LSM Tree的结构，数据写入后定期在后台 Compaction。通过类 LSM tree的结构，ClickHouse 在数据导入时全部是顺序 append 写，写入后数据段不可更改，在后台compaction 时也是多个段 merge sort 后顺序写回磁盘。顺序写的特性，充分利用了磁盘的吞吐能力，即便在 HDD 上也有着优异的写入性能。数据分区与线程级并行ClickHouse 将

原创 2022-02-26 14:39:32 · 319 阅读 · 0 评论
尚硅谷大数据技术之Sqoop

一、 Sqoop 安装下载地址：http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/测试 Sqoop 是否能够成功连接数据库bin/sqoop list-databases --connect jdbc:mysql://hadoop102:3306/ --username root --password 000000二、 Sqoop 的简单使用案例1. RDBMS 到 HDFS1）在 Mysql 中新建一张表并插入一些数据$ mysql -uroot

原创 2021-08-22 15:07:14 · 323 阅读 · 0 评论
大数据技术之 Hive UDF

一、自定义函数当 Hive 提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数。UDF（User-Defined-Function）一进一出UDAF（User-Defined Aggregation Function）聚集函数，多进一出，类似于：count/max/minUDTF（User-Defined Table-Generating Functions）一进多出，如 lateral view explode()1. 自定义 UDF 函数0）需求:自定义一个 UDF

原创 2021-08-15 15:19:19 · 305 阅读 · 0 评论
尚硅谷Shell教程(shell自动化编程精讲)_笔记

在线编译：https://c.runoob.com/compile/18哔哩哔哩：https://www.bilibili.com/video/BV1hW41167NW?p=7&spm_id_from=pageDriver一、Shell中的变量（1）常用系统变量：$HOME、$PWD、$SHELL、$USER（2）基本语法定义变量：变量=值撤销变量：unset 变量声明静态变量：readonly 变量，注意：不能unset（3）变量定义规则等号两侧不能有空格；在bash中，变量默

原创 2021-07-25 16:03:13 · 744 阅读 · 4 评论
尚硅谷_尚硅谷离线数据仓库项目(阿里云离线数仓)_笔记

网址：https://www.bilibili.com/video/BV1AJ411Q7ox?p=29&spm_id_from=pageDriver一、项目架构设计1.1 阿里云技术框架1.2 技术选型1.3 系统数据流程设计二、数据生成模块三、数据采集模块3.1 购买 ECS 云服务器3.2 基础环境准备3.3 FlumeFlume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。3.4

原创 2021-07-11 15:13:39 · 1369 阅读 · 0 评论
黑马_大数据千亿级数仓实战_笔记

一、kettle介绍二、数据仓库开发1. 表结构介绍和导入数据2. 缓慢变化维a.拉链表存储历史快照代码实现操作步骤：在原有dw层表上，添加额外的两列：生效日期（dw_start_date）、失效日期（dw_end_date）只同步当天修改的数据到ods层拉链表算法实现：编写SQL处理当天最新的数据；编写SQL处理dw层历史数据，重新计算之前的dw_end_date；拉链表的数据为：当天最新的数据 UNION ALL 历史数据拉链表的数据为：当天最新的数据 UNION ALL 历史数据代

原创 2021-06-24 21:42:13 · 644 阅读 · 2 评论
大数据技术之 Hive

一、Hive 基本概念1）Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。2）Hive 本质：将 HQL 转化成 MapReduce 程序；Hive 处理的数据存储在 HDFSHive 分析数据底层的实现是 MapReduce执行程序运行在 Yarn 上3）Hive 架构原理二、Hive安装部署1. 安装 Hive1）把 apache-hive-3.1.2-bin.tar.gz 上传到 linux 的/opt/softw

原创 2021-06-07 20:27:23 · 1549 阅读 · 7 评论
hadoop环境

集群Linux环境搭建注意事项1.windows系统确认所有的关于VmWare的服务都已经启动2.确认好VmWare生成的网关地址3. 确认VmNet8网卡已经配置好了IP地址和DNS复制虚拟机虚拟机修改Mac和IP1.集群规划node01 192.168.174.1002.设置ip和Mac地址① 每台虚拟机更改mac地址vim /etc/udev/rules.d/70-persistent-net.rules② 每台虚拟机更改IP地址:vim /etc/sysconfig/n

原创 2021-05-05 10:20:51 · 154 阅读 · 0 评论
Linux常用命令汇总

https://blog.csdn.net/weixin_44895651/article/details/105289038?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161801444716780269867497%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=161801444716780269867497&biz_i

原创 2021-04-10 17:20:43 · 144 阅读 · 0 评论
Hadoop入门教程_笔记

spark在hadoop肩膀上可以让大数据飞的更高。一、总结1.概念Hadoop就是存储海量数据和分析海量数据的工具，是专为离线和大规模数据分析而设计的，其核心部件是HDFS与MapReduce。HDFS为海量的数据提供了存储。可以理解为一个分布式的，有冗余备份的，可以动态扩展的用来存储大规模数据的大硬盘。MapReduce为海量的数据提供了计算。可以理解成为一个计算引擎，按照MapReduce的规则编写Map计算/Reduce计算的程序，可以完成计算任务。2.怎么使用HadoopHadoo

原创 2021-03-14 11:18:08 · 229 阅读 · 0 评论

大数据

作者: 风满楼i

极客时间_FlinkSQL 实战

尚硅谷_ClickHouse

尚硅谷大数据技术之Sqoop

大数据技术之 Hive UDF

尚硅谷Shell教程(shell自动化编程精讲)_笔记

尚硅谷_尚硅谷离线数据仓库项目(阿里云离线数仓)_笔记

黑马_大数据千亿级数仓实战_笔记

大数据技术之 Hive

hadoop环境

Linux常用命令汇总

Hadoop入门教程_笔记