自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 MySQL原理(二)

MySQL原理、数据库、行格式、行溢出、页溢出、compact格式

2025-04-17 09:42:21 1019

原创 MySQL原理(一)

MySQL原理、乱码原因、字符集、比较规则、存储引擎

2025-04-08 09:02:49 1028

原创 Sqoop的使用

sqoop、大数据、ETL、导入、导出、MySQL、Hive

2024-12-28 14:20:40 1709 1

原创 数据分析(一)

数据分析、jupyter中文问题、numpy使用、ndarray、pycharm、anaconda环境

2024-12-24 13:23:00 1564 1

原创 Java基础复习

​ 抽象类产生原因:定义一个类时,常常需要定义一些成员方法描述类的行为特征,但有时这些方法的实现方法是不确定的,所以抽象类必然要满足这个要求。成员变量抽象方法。(然后没了)​ 抽象方法是使用abstract关键字修饰的成员方法,抽象方法在定义时,不需要实现方法体。抽象方法定义规则包含抽象方法的类必然是抽象类;声明抽象类和抽象方法时都需要使用abstract关键字修饰;抽象方法只需要声明而不需要实现;如果一个非抽象类继承了抽象类后,那么该类必须重写抽象类中的全部抽象方法;// 定义抽象动物类。

2024-12-07 20:57:17 1667

原创 HDFS详细分析

HDFS源于2003年10月发表的论文,该论文描述了Google开发的一个产品框架,该框架称为GFS(,Google文件系统)。Nutch开发人员借鉴GFS进行开源版本的实现,最终设计一款类似于GFS的分布式文件系统HDFS。

2024-10-17 15:51:01 1621

原创 Excel数据分析

主要包含:无计算、总计的百分比、列汇总的百分比、行汇总的百分比、百分比、父行汇总的百分比、父级汇总的百分比、差异、差异百分比、按某一字段汇总、升序排序、降序排序、指数。1.如果数据源表格因为业务需求,发生新增行或者删除行情况,刷新数据透视表,数据会更新吗?2.如果数据源表格因为业务需求,发生增加列或减少列的情况,刷新数据透视表,数据会更新吗?数据表的所有第一行列标题都会显示在“数据透视表字段列表”中,相当于数据透视表的数据源。注意: 因为数据透视图是依赖数据透视表的,所以必须先有对应数据透视表存在。

2024-10-17 15:49:36 1190

原创 Kettle基本使用

拖拽输入端 txt文件数据拖拽输出端 excel文件输出配置mysql连接注意:如果连接失败是因为你没有在Kettle的bin目录下放一个mysql的连接包,连接包可以在[Maven中央仓库]()里下载,这里放一个我用的比较稳定的版本:mysql-connector-j-8.2.0.jar通过百度网盘分享的文件:mysql-connector-j-8.2.0.jar链接:https://pan.baidu.com/s/1xnDAXVQrK6mzJ48uetGJzg?pwd=kphn。

2024-10-17 15:48:09 3667 2

原创 Hive笔记

hive、hadoop、大数据、ods、app层、数据建模类型

2024-10-17 15:44:36 1446 1

原创 JavaAPI操作HDFS

重启电脑,在终端查看hadoop版本在hadoop目录中添加windows系统的依赖文件​ 找到与hadoop版本相近的winutils版本的bin,然后把下载好的中的文件复制粘贴到windows的hadoop/bin目录下和,其中前两者是用于运行HDFS和MapReduce程序时防止NativeIO异常;hadoop.dll文件用于运行HDFS和MapReduce程序时防止空指针异常。

2024-10-10 11:12:41 1008

原创 day8-案例聊天数据分析报表

​ 聊天平台每天都会有大量的用户在线,会出现大量的聊天数据,通过对,可以更好的对用户构建用户画像,为用户提供更好的服务以及实现平台运营推广,给公司的发展决策提供精确的数据支撑。项目目标:​ 基于HadoopHive和FineBI实现聊天数据统计分析,构建(如下图)

2024-09-17 09:58:03 1924 2

原创 day7-Hive复杂数据类型

day7-Hive集合数据类型一、Array 数组类型参考数据namework_locationszhangshanbeijing,shanghai,tianjin,hangzhouwangwuchangchun,chendu,wuhan,nanchang格式array<类型>collection items terminated by '分隔符';创建包含数组的表-- 创建表,两个字段(名字、工作地点)create tabl

2024-09-15 21:15:25 744

原创 day06-Hive函数补充

使用函数对字段数据进行处理计算不同类型的字段数据有不同的处理函数。

2024-09-14 20:34:36 1043

原创 day05-Hive语法补充

表名和字段的修改使用alter关键字。

2024-09-13 18:36:33 1979 3

原创 day04-HiveSQL

数据1-2 结构化数据1-3 映射表二、Hive架构

2024-09-13 08:00:00 862

原创 day03-Hadoop框架

集群:指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机联合起来工作(服务),可以是并行的,也可以是做备份。单机安装将服务安装到一台服务器上集群安装将服务器安装到多台服务器上(👇图为集群示例)分布式和集群区别分布式主要工作是分解任务,将职能拆解,多个人在一起做不同的事集群主要是将同一个业务,部署在多个服务器上 ,多个人在一起做同样的事Hadoop是Apache旗下的一个用Java语言实现开源软件框架,是一个存储和计算大规模数据。

2024-09-12 20:07:52 995

原创 day02-Linux系统操作

Linux常见命令汇集(有图片版)

2024-09-12 10:00:00 1356

原创 C盘空间突然变小了的可能原因

链接:https://pan.baidu.com/s/12WLpIThatfY1g9fvKjBtaw?)又出现了,关掉对系统没多大影响。

2024-09-11 23:39:51 856

原创 day01-大数据概述

大数据(big data):无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合大数据的数据量:1PB~1EB <=> 1024TB~1024*1024TB大数据技术的任务:解决和。

2024-09-11 20:14:43 1354 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除