- 博客(30)
- 收藏
- 关注
原创 【HIVE】hive拉链表的一种实现3
本文介绍了HIVE拉链表的实现方法。需求涉及从current_data表获取增量数据,更新history_data表和deleted_data表。history_data表存储历史数据,标记数据状态(新增、不变、删除),deleted_data表存储被删除的数据。处理逻辑包括:对不存在的数据标记为删除并更新版本号,存在的数据标记为不变,新增数据插入并标记为新增。示例展示了三天的数据处理过程,包括数据在不同版本间的状态变化。注意事项包括动态版本号、性能优化和数据完整性保障。通过拉链表设计,实现了历史数据的完整
2025-07-11 15:28:14
724
原创 【HIVE】拉链表与删除表的一种实现方法2
本文介绍了一种使用三张表(当前数据表、拉链表和删除表)实现拉链表的方法。关键点包括: 通过org_code和item_code作为唯一标识,记录数据的版本变更 当前数据表存储最新版本数据,拉链表保存历史数据并记录start_version和end_version 删除表专门存储被删除的数据记录 提供了Hive SQL实现方案,包括:更新拉链表、插入删除数据和新增数据三个步骤 通过示例数据演示了版本20250101-20250103的数据变更过程 展示了数据如何在三张表之间流转,包括历史数据版本更新、删除数据
2025-07-10 17:13:50
930
原创 【HIVE】hive中一种拉链表的实现方法
本文介绍了基于版本变更的数据拉链表实现方法。业务规则要求记录数据在连续版本间的存在状态,每条数据需标注进入版本号(start_version)和离开版本号(end_version)。通过三天的示例数据演示了处理过程:从初始插入,到更新失效数据,再到处理重新加入的数据。文章还提供了Hive SQL实现方案,包括更新失效数据和插入新增数据的操作,并强调需要注意动态版本号处理、性能优化和数据完整性保障等关键点。该方案适用于需要追踪数据生命周期变化的业务场景。
2025-07-10 16:28:53
381
原创 关于 Linux(使用 CentOS)和 HDFS 的基础问题及答案
当然可以,这里是一些关于 Linux(使用 CentOS)和 HDFS 的基础问题及答案。
2025-06-18 14:37:00
343
原创 Hive 数据导入到 Doris 的方法
将 Hive 数据导入到 Doris 的常见方法包括:1. Broker Load:通过 Doris 的 Broker 直接读取 HDFS 上的 Hive 数据文件,适用于离线批量导入历史数据。2. Spark Load:利用 Spark 进行数据转换和导入,适合复杂处理或大规模数据场景。3. Stream Load:先将 Hive 数据导出到本地文件,再通过 Stream Load 导入,适用于小规模数据或测试环境。4. DataX:使用阿里巴巴开源的 DataX 工具进行数据同步,适合异构数据源之间的定
2025-05-12 17:11:48
501
原创 AI大模型基础知识分享
DeepSeek: 特点、应用场景、技术优势ChatGPT: 发展历程、功能、实际应用案例其他模型: 如BERT、GPT-3等,简要介绍和比较。
2025-03-10 17:25:44
310
原创 hue前台不报错,hive服务器上脚本报错FAILED: ParseException line 85:0 cannot recognize input near ‘‘20240523‘‘ ‘;‘ ‘
但是用引号包住也可以,不过一定要双边都有引号,出现单边引号,hiveserver2解析脚本的时候,就会出现问题。
2024-05-24 09:29:53
290
原创 一些常用的Linux shell脚本【自存】
bin/bash# 检查是否传递了参数thenecho "没有传递参数,使用默认参数"# 在这里设置默认参数else# 使用传递的参数fi# 打印参数值echo "参数值为: $my_param"
2023-11-10 19:42:22
158
1
原创 【Linux shell脚本知识记录】
【重要】shell脚本中的赋值语句,前后不能出现空格。例如:num1 = “ABC” #这是错误的写法,不能有空格num1=“ABC” #这是正确的写法。
2023-10-30 13:57:35
166
1
原创 Oracle函数备份
DATEDIF(“2001/2/28”,“2004/3/20”,“md”)等于-8,即忽略月和年后,2001年2月28日与2004年3月20日的差为-8天。DATEDIF(“2001/1/28”,“2004/3/20”,“YM”)等于2,即忽略日和年后,2001年1月28日与2004年3月20日的差为2个月。DATEDIF(“2001/2/28”,“2004/3/20”,“yd”)等于21,即忽略年后,2001年2月28日与2004年3月20日的差为21天。返回角度在-pi/2到pi/2之间。
2023-10-19 10:05:32
204
1
原创 【Hive】基础语法记录hivesql
2.join 连接:inner join 内连接;left join 左连接;right join 右链接;full join 全外链接。分区排序:类似 MR 中 partition,进行分区,结合 sort by 使用。对分组后的数据进行筛选,使用。
2023-10-18 16:16:43
278
1
原创 前端三件套——JavaScript基础语法自学指南【更新中】
而JavaScript不单单只适用于前端网页的场景下,它也是一歌独立的计算机编程语言,和Java、python、R、Go那样,有自己的语法,也有自己的规则,也是一门计算机高级语言,只不过每门语言都有自己的优劣之处,作用不同而已。而JavaScript,相当于让这个骨架和血肉组成的人“动起来”,你的鼠标在网页上的每一次点击,每一次鼠标移动到每个元素上的动画效果,你在网页上的数据填入、网页跳转等,都是由JavaScript来控制的。请注意,''或""本身只是一种表示方式,不是字符串的一部分,因此,字符串。
2023-10-12 17:30:16
325
原创 git基础使用方法和上传代码到GitHub
字面大体意思就是你原先的密码凭证从2021年8月13日开始就不能用了,必须使用个人访问令牌(personal access token),就是把你的密码替换成token!5.因为现在的GitHub不支持只用https连接,而需要用令牌token,所以还要设置ssh和token。随便进入一个文件夹,然后鼠标右键点击空白处,再点开那个Git Bash Here就可以打开git的终端了。之后用自己生成的token登录,把上面生成的token粘贴到输入密码的位置。4.创建完成后,会有一个你的仓库地址,复制它就行。
2023-10-09 11:19:34
113
1
原创 DolphinScheduler Standalone 单机版安装配置
则代表这个文件夹是root群组,可以被root用户操作的,Linux下每个文件夹都有这样的群组和操作权限,每个用户只能修改自己的文件夹,但是root可以修改所有用户的文件夹。所以,你可以自己修改dolphinscheduler的资源文件路径,只要确保那个路径可读可写,并且指定的用户可以修改即可。如果是配置在服务器或者虚拟机中,这里的localhost要改成你本机的IP地址,如192.168.58.20。这里我们可以看到,这个绿色的文件夹,就是具有所有权限的文件夹,可读可写可改可删除,也就是它的前缀。
2023-09-08 11:15:34
1131
1
转载 Java基础知识自学指南(二)Java面向对象编程
修饰符 方法返回类型 方法名(方法参数列表) {公有域;私有域;若干方法语句;return 方法返回值;方法返回值通过return语句实现,如果没有返回值,返回类型设置为void,可以省略return。
2023-08-25 16:29:47
163
1
转载 Java基础知识自学指南(一)Java快速入门
本篇博客是精简后,用于自我学习记录的,是博主自己抓的重点,遗忘点,和易错点,可能并不适用于基础者(博主先学了C++/C、Python),所以大多数情况下,本篇博客是写的Java和C++的不同之处。冒泡排序的特点是,每一轮循环后,最大的一个数被交换到末尾,因此,下一轮循环就可以“刨除”最后的数,每一轮循环都比上一轮循环的结束位置靠前一位。,资源开源的,代码全在gitee,语言精炼质朴,通俗易懂,别去看CSDN乱七八糟的博客,也别去买书了,配合B站教程食用即可,获得最佳。理论上,我们可以定义任意的N维数组。
2023-08-25 14:36:55
390
1
原创 IDEA远程连接Oracle数据库
完全没有那种下载Oracle数据库,还安装个Oracle developer来可视化的烦恼~然后会出现要你下载驱动包,你顺着那么小手一点,欸嘿,它就可以了,点一下就行。然后就连上啦,可以直接在IDEA里面看见数据库的各种表和关系啦~(此处应该有下载驱动的画面,但作者已丢失。然后就可以愉快地(篡改数据)写代码啦~是不是非常的方便,非常的便捷?
2023-08-24 14:17:14
1064
原创 (java.lang.ClassNotFoundException: oracle.jdbc.driver.OracleDriver)IDEA中连接Oracle数据库失败,缺少驱动
该问题出现在用idea连接Oracle数据库的时候,代码都写好了但是发现连不上Oracle。连接oracle数据库时,一直报错找不到驱动,后来发现自己没整驱动。3. 然后打开IDEA,如下操作:点击添加,把jar添加进去。然后把项目刷新一下就可以了,或者关掉IDEA重新打开。(或者是能连Oracle,但是只能连一半。首先要保证自己的Oracle数据库是启动了的噢。
2023-08-24 14:13:46
4966
1
原创 Oracle中TO_CHAR()、NVL(X,Y)、CONCAT(X,Y)等函数的用法
Oracle中TO_CHAR()、NVL(X,Y)、CONCAT(X,Y)等函数的用法。
2023-08-22 15:06:59
295
原创 关系型数据库的对比:MySQL、 Oracle、SQL server、PostgreSql
这里是2023年3月份全世界的数据库使用频率,其中最常用的是Oracle、MySQL和SQL service,他们三个的占比达到了一半以上。初学者第一次学习数据库时,不必拘泥于数据库的选用,但是后续学习和工作接触数据库时,便会开始思考数据库的不同,以及某种业务场景下,到底需要怎么样的数据库呢?
2023-08-22 14:48:26
869
1
原创 windows批处理脚本、shell入门学习指南
7、arp 显示、修改局域网的IP地址-物理地址映射列表。9、fc 比较两个文件或两个文件集并显示它们之间的不同。5、tree 以图形显示驱动器或路径的文件夹结构。6、path 为可执行文件显示或设置一个搜索路径。5、ipconfig显示、修改TCP/IP设置。4、dir 显示目录中的文件和子目录列表。1、ping 进行网络连接测试、名称解析。2、shutdown立即或定时关机或重启。7、attrib 显示或更改文件属性。7、xcopy 复制文件和目录树。3、del 删除一个或数个文件。
2023-08-21 17:06:02
1907
2
原创 plsql developer 如何启动
那么启动sql developer需要在服务中启动OracleServiceORCL服务和OracleOraDE12Home服务.要启动sqlplus,那么需要在服务中启动OracleServiceORCL服务。2、ctrl+shift+esc快速打开任务管理器,在任务管理器中打开服务。1、鼠标右击我的电脑,单机管理,在里面可以找到服务项,打开即可。
2023-08-21 09:24:05
728
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人