苏子卿喵-CSDN博客

原创 Spark中的常见面试题

例如，设置 1 秒作为一个批次的时间间隔，Spark Streaming 会每秒从数据源获取一批数据，将这批数据转化为一个 RDD，然后对该 RDD 应用一系列的转换和输出操作，如 map、reduce、window 等，从而实现实时数据的处理。例如，如果一个 RDD 是通过对另一个 RDD 进行 map 操作得到的，那么当该 RDD 的分区丢失时，只要其父 RDD 的分区数据存在，就可以通过重新执行 map 操作来恢复该分区的数据。RDD 是 Spark 的核心概念，是一个分布式的数据集，具有容错性。

2025-07-22 18:19:24 659

原创 DolphinScheduler使用sqoop功能时出现的报错Caused by: java.lang.ClassNotFoundException: Class QueryResult not fo

企业中T+1离线数仓，通过任务调度器在服务器上定时运行。在 ds 中运行 sqoop 脚本有两种方式，第一种是直接拖拽 sqoop 组件，一种是使用 shell。假如你使用 shell 运行 sqoop 在集群上运行，那么集群上的每一台服务器都要安装 sqoop。不是所有的表都需要每日增量抽取的，有些表全量抽取一遍即可，有些表一个月或者一周抽取一次增量数据。首先使用 ds 运行一个增量提取 mysql 中的 users 表数据。检查 ds 如何整合 sqoop 呢？配置完成后，重启 ds。

2025-06-17 19:05:02 294

原创数据科学与大数据技术专业相关工作内容所需技能及薪资介绍

工作内容基础设施维护：负责大数据集群的硬件设备维护，包括服务器、存储设备、网络设备等。确保这些硬件设备正常运行，及时处理硬件故障，如更换损坏的硬盘、内存等部件。例如，当服务器的风扇出现故障导致服务器过热时，运维人员需要快速定位并更换风扇，以避免服务器因过热而宕机。操作系统管理：安装、配置和更新大数据集群中各个节点的操作系统。要确保操作系统的安全性、稳定性和性能。例如，定期为操作系统打补丁，以修复安全漏洞，防止黑客攻击或恶意软件入侵。集群部署与管理：部署和配置大数据平台，如 Hadoop、Spark、H

2025-06-17 12:12:35 654

tiwatezhongli的博客

原创 Spark中的常见面试题

原创 DolphinScheduler使用sqoop功能时出现的报错Caused by: java.lang.ClassNotFoundException: Class QueryResult not fo

原创数据科学与大数据技术专业相关工作内容所需技能及薪资介绍

原创 Hive性能优化与数据倾斜克星：大数据实战秘籍

原创大数据时代：Hive性能优化的极致秘籍

原创 Hive中INSERT INTO操作报错但数据仍插入的“诡异”现象及解决方法

原创 Hadoop全分布模式搭建：从零到集群运行的详细步骤

原创 Hadoop伪分布式搭建全攻略：从环境到实战应用

原创 Hadoop从零开始：安装、配置及经典案例

原创 AWK实战指南：模糊查询、字段提取与BEGIN/END语句

原创 Linux文本处理实战：Sed、Split、Tr、Uniq、Tee命令从入门到入土

原创 Linux回收站脚本：防止误删文件的实用技巧

原创在Linux虚拟机中MySQL 8.0安装与配置全攻略：从上传到远程连接

空空如也

空空如也