spark 访问hdfs
时间: 2023-10-05 11:14:54 浏览: 333
你可以使用 Apache Spark 访问 HDFS(Hadoop 分布式文件系统)。下面是一种常见的方法:
首先,你需要在 Spark 应用程序中设置 Hadoop 配置。可以使用以下代码来完成:
```python
from pyspark.sql import SparkSession
# 创建 SparkSession
spark = SparkSession.builder \
.appName("Spark HDFS Example") \
.getOrCreate()
# 设置 Hadoop 配置
spark.conf.set("fs.defaultFS", "hdfs://<HDFS 地址>")
spark.conf.set("dfs.client.use.datanode.hostname", "true")
```
请确保将 `<HDFS 地址>` 替换为实际的 HDFS 地址,例如 `hdfs://localhost:9000`。
然后,你可以使用 SparkSession 的 `read` 方法来读取 HDFS 中的文件,并将其加载到 Spark DataFrame 中。以下是一个示例:
```python
# 从 HDFS 中读取文件并加载为 DataFrame
df = spark.read.csv("hdfs://<HDFS 文件路径>")
```
同样,请将 `<HDFS 文件路径>` 替换为实际的 HDFS 文件路径,例如 `/user/data/file.csv`。
你还可以使用其他 Spark API(如 RDD)来访问和处理 HDFS 数据。这只是一个基本示例,你可以根据你的需求进行进一步的定制和操作。
阅读全文
相关推荐



















