没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
内容概要:本文档是关于熟悉 Spark 初级编程实践的实验报告,主要介绍了如何使用 Spark 访问本地文件和 HDFS 文件,编写、编译和运行 Spark 应用程序。实验内容包括:通过 Spark-shell 读取本地和 HDFS 文件并统计行数;编写独立应用程序读取 HDFS 文件统计行数;编写独立应用程序实现数据去重;编写独立应用程序求平均成绩。报告还列举了实验中遇到的问题及其解决方法,并分享了使用 Spark 进行数据处理的心得体会,强调了 Spark 在大规模数据处理中的高效性、可扩展性和易用性。 适合人群:具有基本编程基础,对大数据技术有兴趣的学习者,特别是刚开始接触 Spark 的初学者。 使用场景及目标:①掌握 Spark 访问本地文件和 HDFS 文件的方法;②学会编写、编译和运行 Spark 应用程序;③理解 Spark 数据处理的基本流程和常用操作;④解决在 Spark 实验中遇到的常见问题;⑤提升对 Spark 处理大规模数据的理解和应用能力。 其他说明:本实验报告不仅提供了详细的实验步骤和代码示例,还针对实验过程中可能出现的问题给出了具体的解决方案。同时,通过编写多个独立应用程序,帮助读者更好地理解和掌握 Spark 的核心概念和实际应用技巧。此外,报告还分享了使用 Spark 进行数据处理的一些经验和心得,为读者进一步学习和使用 Spark 提供了宝贵的参考。
资源推荐
资源详情
资源评论






















实验 7
熟悉 Spark 初级编程实践
一、实验目的
1. 掌握使用 Spark 访问本地文件和 HDFS 文件的方法。
2. 掌握 Spark 应用程序的编写、编译和运行方法。
二、实验平台
1. 硬件要求:笔记本电脑一台
2. 软件要求:VMWare 虚拟机、Ubuntu 18.04 64、JDK1.8、Hadoop-3.1.3、Hive-3.1.2、
Windows11 操作系统、Eclipse、Flink-1.9.1、IntelliJ IDEA、Spark-2.4.0
三、实验内容与完成情况
3.1 Spark 读取文件系统的数据。
在 Linux 系统中安装 IntelliJ IDEA,然后使用 IntelliJ IDEA 工具开发 WordCount 程序,
并打 包成 JAR 文件,提交到 Flink 中运行。
(1)在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop/test.txt”,然后统计出
文件的行数。
①下载 spark 压缩包并使用如下语句将对应的压缩包解压到/usr/local 的文件目录下:
sudo tar -zxf ./spark-2.4.0-bin-without-hadoop.tgz -C /usr/local
② 使 用 如 下 语 句 将 解 压 后 的 文 件 夹 “ spark-2.4.0-bin-without-hadoop ” 重 命 名 为
“spark”:
sudo mv ./spark-2.4.0-bin-without-hadoop/ ./spark
③使用如下语句修改 spark 的配置文件信息:

vim /etc/profile
④使用如下语句让刚修改完的配置信息立即生效:
source /etc/profile
⑤使用如下语句复制"spark-env.sh.template"文件的内容并将其存入到"spark-env.sh"文
件中:
cp spark-env.sh.template spark-env.sh
⑥使用如下语句启动 spark 进行实验操作:
./sbin/start-all.sh
⑦使用如下语句进行进程信息查看:
jps
⑧使用如下语句完成 spark-shell 的启动工作:
./bin/spark-shell

⑨使用如下语句读取 Linux 系统本地文件“/home/hadoop/test.txt”:
cd /home/hadoop/test.txt
val textFile=sc.textFile("file:///home/hadoop/test.txt")
⑩使用如下语句统计文件“/home/hadoop/test.txt”的行数:
textFile.count()
(2)在 spark-shell 中读取 HDFS 系统文件“/user/hadoop/test.txt”(如果该文件不存在,
请先创建),然后统计出文件的行数。
①使用如下语句在 HDFS 上传文件"1.txt",上传完成后并进行查看是否成功完成上传:
cd /usr/local/hadoop
hadoop fs -ls
hadoop fs -put 1.txt
hadoop fs -ls
②使用如下语句读取 Linux 系统 HDFS 系统文件“/user/hadoop/test.txt”:
val textFile=sc.textFile("hdfs://localhost:9000/user/hadoop/test.txt")
③使用如下语句统计 HDFS 系统文件“/user/hadoop/test.txt”的行数:
textFile.count()
剩余13页未读,继续阅读
资源评论



万能小锦鲤

- 粉丝: 441
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 实例学生宿舍管理系统数据库研究设计.doc
- WCDMA网络规划策略探讨.doc
- 基于B-S三层架构的高校网络教学管理系统设计.docx
- 软件工程大四社会实践报告.docx
- 计算机在生物医药领域的应用与发展前景.docx
- 通信模组行业市场发展趋势分析-工业互联网的基石网络设备和通信模组需.docx
- 计算机病毒的安全防御策略.docx
- 三种不同的形式的电子商务研究分析.doc
- 三相短路和单相接地短路MATLAB.doc
- 计算机专业毕业论文[]3.doc
- 基于移动学习空间的教师网络研修模式设计与实证研究.docx
- 财务管理信息化建设中存在的问题与对策.docx
- 餐饮有限公司网站建设方案.doc
- 2013年计算机组装和维护教学计划.doc
- 智能电网安全策略切换判决算法设计.docx
- 计算机网络技术基础分解.ppt
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
