Dengyahui04-CSDN博客

原创教大家如何在虚拟机上创建mysql数据库和表

【代码】教大家如何在虚拟机上创建mysql数据库和表。

2025-05-14 15:32:22 174

rpm -ivh 是 Linux 中用于安装 RPM（Red Hat Package Manager）软件包的命令。若已安装，需要先做卸载MySQL的操作命令是：rpm -e --nodeps mariadb-libs。使用的命令是： mysqld --initialize --user=mysql。查看是否已安装MySQL。-v：表示显示详细（verbose）信息，提供更多安装过程中的输出信息。对应的命令是：mysql -uroot -p。-h：表示在安装过程中显示进度条，以 # 符号表示安装进度。

2025-05-14 15:30:31 580

原创 WordCountTool作业

【代码】WordCountTool作业。

2025-05-14 15:27:47 98

原创 sparkSQL读入csv文件写入mysql

【代码】sparkSQL读入csv文件写入mysql。

2025-05-14 15:25:14 112

原创 sparkSQL连接mysql并添加新数据库

【代码】sparkSQL连接mysql并添加新数据库。

2025-05-14 15:24:13 80

原创 3分钟教会你们怎么配置Sparklocal模式（本地模式）

**安装Hadoop Winutils**（仅限Windows）：下载与Spark和Hadoop版本匹配的`winutils.exe`，并将其放置在如`C:\hadoop\bin`的目录中，设置`HADOOP_HOME`环境变量。- 如果需要明确指定本地模式，可以在启动Spark Shell或提交作业时使用`--master`选项，如`spark-shell --master local[4]`（使用4个核心）。- 在Spark Shell中，可以通过检查`master`设置来确认是否为本地模式。

2025-05-13 11:36:06 344

原创「Spark和Hadoop之间的对比和联系」

对于迭代计算任务，Spark的性能提升更为明显。例如，在机器学习算法（如K - means聚类算法）的训练过程中，Spark可以将数据集存储在内存中，每次迭代只需要在内存中进行计算，大大加快了算法的收敛速度。例如，在一个数据处理流程中，原始数据存储在HDFS中，Spark从HDFS读取数据进行复杂的数据处理，处理完成后将结果数据再写回到HDFS，方便后续的数据存储和查询。例如，在机器学习算法的实现中，Spark可以快速地对数据进行迭代计算，因为数据可以驻留在内存中，减少了每次迭代过程中的数据读取时间。

2025-05-13 11:34:00 330

原创 sparkmysql的基本使用

【代码】sparkmysql的基本使用。

2025-05-13 11:31:22 94

原创 RDD自定义分区案例

【代码】RDD自定义分区案例。

2025-05-13 10:47:11 90

原创 RDD自定义分区器

【代码】RDD自定义分区器。

2025-05-13 09:41:13 110

原创 RDD分区和分区器

【代码】RDD分区和分区器。

2025-05-13 09:12:50 98

原创 3分钟教会你配置hadoop集群

对应的命令是：tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module。使用xsync /opt/module/hadoop-3.1.3/etc/hadoop/同步一下。2. 修改一下spark的环境变量，/etc/profile.d/my_env.sh。把三个文件的名字重新设置一下。

2025-05-07 15:55:16 229