- 博客(13)
- 收藏
- 关注
原创 Spark中的常见面试题
例如,设置 1 秒作为一个批次的时间间隔,Spark Streaming 会每秒从数据源获取一批数据,将这批数据转化为一个 RDD,然后对该 RDD 应用一系列的转换和输出操作,如 map、reduce、window 等,从而实现实时数据的处理。例如,如果一个 RDD 是通过对另一个 RDD 进行 map 操作得到的,那么当该 RDD 的分区丢失时,只要其父 RDD 的分区数据存在,就可以通过重新执行 map 操作来恢复该分区的数据。RDD 是 Spark 的核心概念,是一个分布式的数据集,具有容错性。
2025-07-22 18:19:24
659
原创 DolphinScheduler使用sqoop功能时出现的报错Caused by: java.lang.ClassNotFoundException: Class QueryResult not fo
企业中T+1离线数仓,通过任务调度器在服务器上定时运行。在 ds 中运行 sqoop 脚本有两种方式,第一种是直接拖拽 sqoop 组件,一种是使用 shell。假如你使用 shell 运行 sqoop 在集群上运行,那么集群上的每一台服务器都要安装 sqoop。不是所有的表都需要每日增量抽取的,有些表全量抽取一遍即可,有些表一个月或者一周抽取一次增量数据。首先使用 ds 运行一个增量提取 mysql 中的 users 表数据。检查 ds 如何整合 sqoop 呢?配置完成后,重启 ds。
2025-06-17 19:05:02
294
原创 数据科学与大数据技术专业相关工作内容所需技能及薪资介绍
工作内容基础设施维护 :负责大数据集群的硬件设备维护,包括服务器、存储设备、网络设备等。确保这些硬件设备正常运行,及时处理硬件故障,如更换损坏的硬盘、内存等部件。例如,当服务器的风扇出现故障导致服务器过热时,运维人员需要快速定位并更换风扇,以避免服务器因过热而宕机。操作系统管理 :安装、配置和更新大数据集群中各个节点的操作系统。要确保操作系统的安全性、稳定性和性能。例如,定期为操作系统打补丁,以修复安全漏洞,防止黑客攻击或恶意软件入侵。集群部署与管理 :部署和配置大数据平台,如 Hadoop、Spark、H
2025-06-17 12:12:35
654
原创 Hive性能优化与数据倾斜克星:大数据实战秘籍
数据倾斜是由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点的现象。主要表现:任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce 子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数相差太大,通常达到好几倍之多,最长时间远大于平均时长。举一个例子:在单词统计的时候,让 a-p 放在一个文件,q-z 结果放在一个文件,如果 a-p 的单词只有几百个,q-z 的单词有几百万个。
2025-05-28 21:14:15
566
原创 大数据时代:Hive性能优化的极致秘籍
开启本地模式,缩短小任务的执行时间。大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过,有时Hive的输入数据量是非常小的。在这种情况下,为查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多。对于大多数这种情况,Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集,执行时间可以明显被缩短。用户可以通过设置hive.exec.mode.local.auto的值为true,来让Hive在适当的时候自动启动这个优化。
2025-05-28 20:59:26
412
原创 Hive中INSERT INTO操作报错但数据仍插入的“诡异”现象及解决方法
Hive的操作报错但数据仍然插入的现象可能是由多种原因导致的,包括延迟错误处理机制、容错机制、事务和ACID特性、日志和错误信息的误导以及配置和环境问题。通过详细检查日志、配置文件、资源使用情况、启用调试模式和检查表结构和数据,可以准确诊断和解决这一问题。希望本文的介绍和解决方法能够帮助你在使用Hive时更加得心应手,避免因类似问题导致的数据处理错误。
2025-05-20 19:36:08
1395
原创 Hadoop全分布模式搭建:从零到集群运行的详细步骤
1、start-dfs.sh 在第一台启动,不意味着只使用了第一台,而是启动了集群。相当于在整个集群中,进行了初始化,初始化其实就是创建文件夹。先不要急着拷贝,因为后面需要修改 bigdata01 上的 hadoop。路径:/opt/installs/hadoop/etc/hadoop。如果以前安装的有伪分布模式,服务要关闭。远程拷贝:(如果三台服务器都已经配置过了,就不需要远程拷贝了)2、一台服务器关闭后再启动,上面的服务是需要重新启动的。修改完了第一台的配置文件,开始分发到其他两台上去。
2025-05-13 10:21:15
900
原创 Hadoop伪分布式搭建全攻略:从环境到实战应用
比如我想搭建一个集群,将集群中的所有磁盘连接在一起形成一个云端的hdfs.伪分布的意思:按照全分布的步骤搭建的集群,但是linux服务器只有一台。位置: /opt/installs/hadoop/etc/hadoop。假如你的环境是伪分布式模式,那么本地模式直接被替换了,回不去了。真正的hadoop伪分布还需要配置yarn 才算真正的伪分布。目前搭建的这个到底是hdfs的伪分布还是hadoop伪分布?伪分布:按照分布式的步骤搭建,但是呢,服务器只有一台。,但是hdfs 也是hadoop的一部分。
2025-05-12 19:30:17
409
原创 Hadoop从零开始:安装、配置及经典案例
海量数据存储的终极解决方案:整出来一个平台,这个平台的服务器可以无限扩展。Yarn : 计算的资源基础,所有的MR任务需要运行在Yarn上。MapReduce:解决计算问题,它是一个计算框架(需要写代码的)HDFS : 解决海量数据的存储问题 1p = 1024 T。HDFS三种模式:本地模式,伪分布模式,全分布模式。如果统计的结果文件夹已经存在,会报错。hdfs: 分布式文件管理系统。
2025-05-12 19:24:17
160
原创 AWK实战指南:模糊查询、字段提取与BEGIN/END语句
root@bigdata01 scripts]# awk -F ' ' 'BEGIN{print "开始计算成绩:"}{total=total+$4}END{print "总成绩 是:"total",总条数是:"NR}' 4.txt。cat 4.txt | awk -F ' ' 'BEGIN{print "开始计算成绩总和"}{total=total+$4}END{print total,NR,(total/NR)}'awk -F ',' '{print $1,$2, $3}' 文件。
2025-05-11 20:20:57
233
1
原创 Linux文本处理实战:Sed、Split、Tr、Uniq、Tee命令从入门到入土
uniq 命令用于检查及删除文本文件中重复出现的行,一般与 sort 命令结合使用。以上的替换都是没有修改原来的数据的,sed也可以直接对原数据进行直接更改。先学习一个新命令 nl 可以查看文件,该文件自动添加行号。不区分大小写的查找,使用 I 参数 (大i)3、列出6.txt中的3~5行的数据。打印第三行到第五航的数据,显示行号。使用tr 进行一个单词计数的练习。直接更改数据,首先数据进行备份。^aaa 表示以 aaa 开始。bbb$ 表示以 bbb 结尾。^.* 表示以 任意字符开始。
2025-05-11 20:19:44
620
原创 Linux回收站脚本:防止误删文件的实用技巧
命令别名 调用del相当于调用trash函数,该函数用于将文件移动到回收站文件夹中# 将指定的文件移动到trash(回收站)目录下trash() {mkdir -p ~/.trash # 确保回收站目录存在# 查看回收站中的文件# ur命令找回回收站中的文件# 找回回收站中的文件mkdir -p ~/.trash # 确保回收站目录存在dothenelseecho "文件 ~/.trash/$file 不存在,无法恢复。fidone# 清空回收站目录下的所有文件cls() {
2025-05-08 15:10:34
912
1
原创 在Linux虚拟机中MySQL 8.0安装与配置全攻略:从上传到远程连接
使用这个sql语句可以修复上面的错误!可以这么干:Y1u2n3h4e5!2、查看是否有mysql数据库。exit 退出mysql客户端。3、依次安装所需服务。
2025-05-07 19:57:02
280
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人