首页spark 访问hdfs

spark 访问hdfs

时间: 2023-10-05 11:14:54 浏览: 333

你可以使用 Apache Spark 访问 HDFS（Hadoop 分布式文件系统）。下面是一种常见的方法：首先，你需要在 Spark 应用程序中设置 Hadoop 配置。可以使用以下代码来完成： ```python from pyspark.sql import SparkSession # 创建 SparkSession spark = SparkSession.builder \ .appName("Spark HDFS Example") \ .getOrCreate() # 设置 Hadoop 配置 spark.conf.set("fs.defaultFS", "hdfs://<HDFS 地址>") spark.conf.set("dfs.client.use.datanode.hostname", "true") ``` 请确保将 `<HDFS 地址>` 替换为实际的 HDFS 地址，例如 `hdfs://localhost:9000`。然后，你可以使用 SparkSession 的 `read` 方法来读取 HDFS 中的文件，并将其加载到 Spark DataFrame 中。以下是一个示例： ```python # 从 HDFS 中读取文件并加载为 DataFrame df = spark.read.csv("hdfs://<HDFS 文件路径>") ``` 同样，请将 `<HDFS 文件路径>` 替换为实际的 HDFS 文件路径，例如 `/user/data/file.csv`。你还可以使用其他 Spark API（如 RDD）来访问和处理 HDFS 数据。这只是一个基本示例，你可以根据你的需求进行进一步的定制和操作。

阅读全文