自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 大数据流相关问题

【代码】大数据流相关问题。

2025-06-15 21:44:38 217

原创 大数据常见问题

正常情况下通过sh 脚本名或者 ./脚本名执行脚本 可以将脚本放到/usr/local/bin等系统环境变量目录下副本为了系统容错,文件系统会对所有数据块进行副本复制多份,Hadoop 是默认 3 副本管理: 第一个副本,在客户端相同的节点(如果客户端是集群外的一台机器,就随机算节点,但是系统会避免挑选太满或者太忙的节点);第二个副本,放在不同机架(随机选择)的节点;第三个副本,放在与第二个副本同机架但是不同节点上;

2025-06-15 21:38:11 1033

原创 time.strftime()和time.strptime()的区分

strftime()从时间元组或对象生成格式化的字符串。strptime()将格式化的字符串解析为时间元组对象。用法建议使用strftime()当你需要将日期时间对象格式化为特定的字符串时,比如用于输出或者日志记录。使用strptime()当你需要从给定格式的日期时间字符串中提取和处理日期时间信息时,比如解析用户输入或外部数据源中的日期时间字符串。通过理解这两个函数的区别和用法,你可以更有效地处理日期时间的格式化和解析需求。

2024-07-13 08:52:01 766

原创 hive数据采集零点漂移

这个时候数据写入的目录就和系统时间有关系。解决方案是采用自定义flume的拦截器,将数据中的 事件时间(也就是数据生成的实际时间)解析出来,存储到headers里面,key是timestamp,value是解析出来的事件时间,将useLocalTimeStamp配置为false, 最终数据就会写入事件时间对应的目录,这样就能解决零点漂移。1.如果采集的数据是23:59:10产生的,结果超过00:00:00才被抽取到服务器上,那么就会导致这样的数据进入到第二天,进而导致数据分析的不准确,这就是零点漂移。

2024-07-03 09:25:55 1058

原创 hive数仓建模使用拉链表的好处及如何构建拉链表

综上所述,Hive数仓建模中使用拉链表的主要原因包括历史数据追踪与快照查询、节省存储空间、查询性能优化、支持复杂的数据分析需求以及易于维护和管理等方面。这些优点使得拉链表成为数据仓库设计中不可或缺的一部分,特别是在处理大规模、高频率更新的数据集时。

2024-07-02 08:35:02 954

原创 hive数仓分层

从ODS层到ADS层,Hive的数据仓库架构形成了一个清晰、高效的数据处理和分析流程。ODS层提供了原始数据的存储;DWD层对数据进行清洗和规范化;DIM层提供了维度数据;DWS层整合了数据并提供了高度汇总的数据;最后,ADS层将数据提供给数据产品和数据分析使用。这个流程确保了数据的高效处理和分析,为业务决策提供了有力的支持。

2024-07-01 12:12:54 959

原创 hive安装报错

解决方案:在hive-site.xml里面为URL增加一个参数。然后就能重启hive就能正常打开了。

2024-07-01 09:26:37 253

原创 Java基础

​ 通过Java语言编写的应用程序在不同的系统平台上都可以运行​ 因为有了JVM,所以同一个Java程序在三个不同的操作系统中都可以执行。这样就实现了Java程序的可移植性。也称为Java具有良好的跨平台性。

2024-06-29 15:40:05 1987

Java基础相关,Java

Java基础相关,Java

2025-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除