无奈小秃头-CSDN博客

正常情况下通过sh 脚本名或者 ./脚本名执行脚本可以将脚本放到/usr/local/bin等系统环境变量目录下副本为了系统容错，文件系统会对所有数据块进行副本复制多份，Hadoop 是默认 3 副本管理：第一个副本，在客户端相同的节点（如果客户端是集群外的一台机器，就随机算节点，但是系统会避免挑选太满或者太忙的节点）；第二个副本，放在不同机架（随机选择）的节点；第三个副本，放在与第二个副本同机架但是不同节点上；

2025-06-15 21:38:11 1033

原创 time.strftime（）和time.strptime（）的区分

strftime()从时间元组或对象生成格式化的字符串。strptime()将格式化的字符串解析为时间元组对象。用法建议使用strftime()当你需要将日期时间对象格式化为特定的字符串时，比如用于输出或者日志记录。使用strptime()当你需要从给定格式的日期时间字符串中提取和处理日期时间信息时，比如解析用户输入或外部数据源中的日期时间字符串。通过理解这两个函数的区别和用法，你可以更有效地处理日期时间的格式化和解析需求。

2024-07-13 08:52:01 766

原创 hive数据采集零点漂移

这个时候数据写入的目录就和系统时间有关系。解决方案是采用自定义flume的拦截器，将数据中的事件时间(也就是数据生成的实际时间)解析出来，存储到headers里面，key是timestamp，value是解析出来的事件时间，将useLocalTimeStamp配置为false，最终数据就会写入事件时间对应的目录，这样就能解决零点漂移。1.如果采集的数据是23:59:10产生的，结果超过00:00:00才被抽取到服务器上，那么就会导致这样的数据进入到第二天，进而导致数据分析的不准确，这就是零点漂移。

2024-07-03 09:25:55 1058

原创 hive数仓建模使用拉链表的好处及如何构建拉链表

综上所述，Hive数仓建模中使用拉链表的主要原因包括历史数据追踪与快照查询、节省存储空间、查询性能优化、支持复杂的数据分析需求以及易于维护和管理等方面。这些优点使得拉链表成为数据仓库设计中不可或缺的一部分，特别是在处理大规模、高频率更新的数据集时。

2024-07-02 08:35:02 954

原创 hive数仓分层

从ODS层到ADS层，Hive的数据仓库架构形成了一个清晰、高效的数据处理和分析流程。ODS层提供了原始数据的存储；DWD层对数据进行清洗和规范化；DIM层提供了维度数据；DWS层整合了数据并提供了高度汇总的数据；最后，ADS层将数据提供给数据产品和数据分析使用。这个流程确保了数据的高效处理和分析，为业务决策提供了有力的支持。

2024-07-01 12:12:54 959