没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
内容概要:该文档是一份实验报告,涵盖了数据科学与大数据技术专业的六个实验内容,分别为:使用 Python 操作 MySQL 数据库和 HDFS、网络爬虫初级实践、Kafka 的基本使用方法、Flume 的基本使用方法、Kettle 的基本使用方法以及 Pandas 数据清洗初级实践。每个实验详细描述了实验目的、内容、条件及要求、实施步骤和总结。通过这些实验,学生能够掌握 MySQL、HDFS、网络爬虫、Kafka、Flume、Kettle 和 Pandas 的基本操作和应用场景。 适合人群:数据科学与大数据技术专业的本科生,尤其是对数据采集、处理和分析有兴趣的学生。 使用场景及目标:①掌握 MySQL 和 HDFS 的基本操作,能够使用 Python 对 MySQL 进行增删改查操作;②理解网络爬虫的工作原理,能够编写简单的爬虫程序并保存数据;③熟悉 Kafka 的消息队列机制,能够编写生产者和消费者的 Python 程序;④了解 Flume 的日志采集功能,能够配置 Flume 与 MySQL 和 Kafka 的连接;⑤掌握 Kettle 的 ETL 功能,能够进行数据转换和作业管理;⑥熟悉 Pandas 的数据清洗和可视化功能,能够处理和分析数据。 阅读建议:实验报告详细记录了每个实验的具体步骤和代码实现,建议读者在学习过程中结合实际操作进行练习,加深对各工具的理解和掌握。同时,建议在实验过程中多查阅相关文档和资料,以应对可能遇到的问题和技术难点。
资源推荐
资源详情
资源评论































实验报告
课程名称 数据采集与预处理
专 业 数据科学与大数据技术
班 级 20 大数据本 1 班
学 号 022900200144
姓 名 武小宝
学年学期 2022-2023 学年 第 1 学期

实验一 熟悉 MySQL 和 HDFS 操作
一、实验目的
1. 熟悉使用 python 操作 MySQL 数据库的方法;
2. 熟悉使用 HDFS 操作使用 Shell 命令。
二、实验内容
1.使用 Python 操作 MySQL 数据库
在 Windows 系统中安装好 MySQL8.0.23 和 Python3.8.7,然后再完成下面题
目中的各项操作。
现有以下三个表格:
表 1 学生表:Student(主码为 Sno)
学号(Sno)
姓名(Sname)
性别(Ssex)
年龄(Sage)
所在系别(Sdept)
10001
Jack
男
21
CS
10002
Rose
女
20
SE
10003
Michael
男
21
IS
10004
Hepburn
女
19
CS
10005
Lisa
女
20
SE
表 2 课程表:Course(主码为 Cno)
课程号(Cno)
课程名(Cname)
学分(Credit)
00001
DataBase
4
00002
DataStructure
4
00003
Algorithms
3
00004
OperatingSystems
5
00005
ComputerNetwork
4
表 3 选课表:SC(主码为 Sno,Cno)

学号(Sno)
课程号(Cno)
成绩(Grade)
10002
00003
86
10001
00002
90
10002
00004
70
10003
00001
85
10004
00002
77
10005
00003
88
10001
00005
91
10002
00002
79
10003
00002
83
10004
00003
67
通过编程实现以下题目:
(1) 查询学号为 10002 学生的所有成绩,结果中需包含学号、姓名、所在系
别、课程号、课程名以及对应成绩。
(2) 查询每位学生成绩大于 85 的课程,结果中需包含学号、姓名、所在系别、
课程号、课程名以及对应成绩。
(3) 由于培养计划改,现需将课程号为 00001、课程名为 DataBase 的学分改为
5 学分。
(4) 将学号为 10005 的学生, OperatingSystems(00004)成绩为 73 分这一记录写
入选课表中。
将学号为 10003 的学生从这三个表中删除。
(1)操作系统:Windows7 及以上;
(2)Hadoop 版本:3.1.3;
(3)JDK 版本:1.8;
(4)MySQL 版本:8.0.23;
(5)Python 版本:3.8.7。

四、实验实施步骤
(一)使用 python 操作 MySQL 数据库
(1) 查询学号为 10002 学生的所有成绩,结果中需包含学号、姓名、所在系
别、课程号、课程名以及对应成绩。
(2) import pymysql.cursors
# 连接数据库
connect = pymysql.Connect(
host='localhost',
port=3306,
user='root',
passwd='520521',
db='school',
charset='utf8'
)
# 获取游标
cursor = connect.cursor()
# 设置 sql 语句
sql = "SELECT student.Sno,Sname,Sdept,course.Cno,Cname,Grade " \
"FROM student,course,sc " \
"WHERE student.Sno = sc.Sno AND course.Cno = sc.Cno AND sc.Sno =
'%s'"
# 设置数据
data = ('10002',)
# 执行 sql 语句
cursor.execute(sql % data)
# 获取数据
print("共有%s 条记录" % cursor.rowcount)
for row in cursor.fetchall():
print("学号:%s\t 姓名:%s\t 系别:%s\t 课程号:%s\t 课程名:%s\t 成
绩:%d" % row)
# 关闭数据库连接
cursor.close()
connect.close()
(2)查询每位学生成绩大于 85 的课程,结果中需包含学号、姓名、所在系别、

课程号、课程名以及对应成绩。
(3) # 获取游标
cursor = connect.cursor()
# 设置 sql 语句
sql = "SELECT student.Sno,Sname,Sdept,course.Cno,Cname,Grade " \
"FROM student,course,sc " \
"WHERE student.Sno = sc.Sno AND course.Cno = sc.Cno AND
Grade > %d"
# 设置数据
data = (85, )
# 执行 sql 语句
cursor.execute(sql % data)
# 获取数据
print("共有%s 条记录" % cursor.rowcount)
for row in cursor.fetchall():
print("学号:%s\t 姓名:%s\t 系别:%s\t 课程号:%s\t 课程名:%s\t 成
绩:%d" % row)
# 关闭数据库连接
cursor.close()
connect.close()
(3)由于培养计划改,现需将课程号为 00001、课程名为 DataBase 的学分改为
5 学分。
# 获取游标
cursor = connect.cursor()
# 设置 sql 语句
sql = "UPDATE course SET Credit = %d " \
"WHERE Cno = '%s'"
# 设置数据
data = (5, '00001')
# 执行 sql 语句,并获取执行结果
result = cursor.execute(sql % data)
# 提交事务
connect.commit()
# 查看执行结果
print(result)
# 关闭数据库连接
剩余39页未读,继续阅读
资源评论


what、why?
- 粉丝: 10
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 混合高斯模型中期望最大算法的实现方法探讨
- 关于混合高斯模型的期望最大算法的实现
- 一款强大的大模型微调数据集生成和管理工具
- 使用LLaMA-Factory微调多模态大语言模型的示例代码 Demo of Finetuning Multimodal LLM with LLaMA-Factory
- 基于大语言模型 API 的外挂知识库问答系统(含 neo4j 知识图谱实现)
- 数据库课程设计研究报告学生成绩管理系统.doc
- 信息技术课中的生活算法之一-操作教学.docx
- 简析互联网时代高职教育新发展.docx
- 试论中职教师信息化教学创新的研究.docx
- ASP企业员工管理系统的方案设计书与实现.doc
- 东莞理工学院C语言程序设计方案作业实验二.docx
- 试论工程项目管理的科学化.docx
- 基于大语言模型API(本地或商用API)的外挂知识库问答系统(附neo4j实现知识图谱)
- 用大数据思维提升职业教育学生的双创能力.docx
- PLC控制运料小车的方案设计书1.doc
- 优质模板旅游管理电子商务毕业论文答辩演讲课件ppt模板.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
