- 博客(18)
- 收藏
- 关注
原创 三分钟教会你在虚拟机上安装mysql
rpm -ivh 是 Linux 中用于安装 RPM(Red Hat Package Manager)软件包的命令。若已安装,需要先做卸载MySQL的操作命令是:rpm -e --nodeps mariadb-libs。使用的命令是: mysqld --initialize --user=mysql。查看是否已安装MySQL。-v:表示显示详细(verbose)信息,提供更多安装过程中的输出信息。对应的命令是:mysql -uroot -p。-h:表示在安装过程中显示进度条,以 # 符号表示安装进度。
2025-05-14 15:30:31
580
原创 3分钟教会你们怎么配置Sparklocal模式(本地模式)
**安装Hadoop Winutils**(仅限Windows):下载与Spark和Hadoop版本匹配的`winutils.exe`,并将其放置在如`C:\hadoop\bin`的目录中,设置`HADOOP_HOME`环境变量。- 如果需要明确指定本地模式,可以在启动Spark Shell或提交作业时使用`--master`选项,如`spark-shell --master local[4]`(使用4个核心)。- 在Spark Shell中,可以通过检查`master`设置来确认是否为本地模式。
2025-05-13 11:36:06
344
原创 「Spark和Hadoop之间的对比和联系」
对于迭代计算任务,Spark的性能提升更为明显。例如,在机器学习算法(如K - means聚类算法)的训练过程中,Spark可以将数据集存储在内存中,每次迭代只需要在内存中进行计算,大大加快了算法的收敛速度。例如,在一个数据处理流程中,原始数据存储在HDFS中,Spark从HDFS读取数据进行复杂的数据处理,处理完成后将结果数据再写回到HDFS,方便后续的数据存储和查询。例如,在机器学习算法的实现中,Spark可以快速地对数据进行迭代计算,因为数据可以驻留在内存中,减少了每次迭代过程中的数据读取时间。
2025-05-13 11:34:00
330
原创 3分钟教会你配置hadoop集群
对应的命令是:tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module。使用xsync /opt/module/hadoop-3.1.3/etc/hadoop/同步一下。2. 修改一下spark的环境变量,/etc/profile.d/my_env.sh。把三个文件的名字重新设置一下。
2025-05-07 15:55:16
229
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人