Hadoop数据进出操作指南

# Hadoop数据进出操作指南 ## 1. WebHDFS与HttpFS的区别 WebHDFS和HttpFS的主要区别在于客户端对所有数据节点的访问权限。如果客户端能够访问所有数据节点，那么WebHDFS就适用，因为读写文件时客户端会直接与数据节点通信以进行数据传输。反之，如果客户端处于防火墙之后，可能无法访问所有数据节点，这时HttpFS是更好的选择。使用HttpFS时，服务器会与数据节点通信，而客户端只需与单个HttpFS服务器通信。如果有选择的话，建议选择WebHDFS。因为客户端直接与数据节点通信有内在优势，它能让你轻松扩展跨多个主机的并发客户端数量，而不会因所有数据都通过HttpFS服务器传输而导致网络瓶颈。特别是当客户端运行在数据节点上时，WebHDFS能利用数据本地性优势，直接从本地文件系统流式传输本地托管的HDFS数据块，而无需通过网络传输。 ## 2. 使用NFS挂载Hadoop ### 2.1 问题与解决方案如果你想将HDFS当作常规的Linux文件系统，并使用标准的Linux工具与HDFS交互，可以使用Hadoop的NFS实现来访问HDFS中的数据。 ### 2.2 详细讨论在Hadoop 2.1之前，只能使用FUSE进行NFS挂载HDFS，但由于各种性能和可靠性问题，不建议普遍使用。而且它还要求在每个客户端机器上安装驱动程序，没有提供NFS网关。 Hadoop中的新NFS实现解决了旧的基于FUSE系统的所有缺点。它是一个标准的NFSv3实现，允许运行一个或多个NFS网关，以提高可用性和吞吐量。 ### 2.3 操作步骤 #### 2.3.1 停止主机上运行的NFS服务在Linux系统上，可以使用以下命令： ```bash $ service portmap stop $ service nfs stop $ service rpcbind stop ``` #### 2.3.2 启动Hadoop NFS服务首先启动portmap服务，它为协议及其关联的传输和端口提供注册表服务。由于它运行在受限端口上，需要以root用户身份启动： ```bash $ sudo hadoop-daemon.sh start portmap ``` 然后启动实际的NFS服务，运行此服务的用户必须与运行HDFS的用户相同： ```bash $ hadoop-daemon.sh start nfs3 ``` #### 2.3.3 验证服务是否运行使用rpcinfo和showmount命令，应该看到类似以下的输出： ```bash $ /usr/sbin/rpcinfo -p localhost program vers proto port 100005 1 tcp 4242 mountd 100000 2 udp 111 portmapper 100005 3 tcp 4242 mountd 100005 2 udp 4242 mountd 100003 3 tcp 2049 nfs 100000 2 tcp 111 portmapper 100005 3 udp 4242 mountd 100005 1 udp 4242 mountd 100005 2 tcp 4242 mountd $ /usr/sbin/showmount -e localhost Export list for localhost: / * ``` #### 2.3.4 挂载HDFS到主机上的目录以下示例选择/hdfs作为挂载目录，第二个挂载命令用于验证挂载是否成功： ```bash $ sudo mkdir /hdfs $ sudo mount -t nfs -o vers=3,proto=tcp,nolock localhost:/ /hdfs $ mount | grep hdfs localhost:/ on /hdfs type nfs (rw,nfsvers=3,proto=tcp,nolock,addr=127.0.0.1) ``` ### 2.4 使用NFS网关的注意事项 - HDFS是只追加的文件系统，可以追加文件，但不能进行随机写入。如果需要使用支持随机写入的文件系统来处理Hadoop数据，可以考虑MapR的Hadoop发行版。 - Hadoop 2.2版本不支持安全Hadoop（Kerberos），目前有一个开放的工单来添加该支持。 - 直到Hadoop 2.4（或3）才支持代理用户。这意味着早期版本的Hadoop会以超级用户身份执行所有命令，因为NFS网关必须以与HDFS相同的用户身份运行。由于这些限制，建议将NFS网关用于实验目的，或在不考虑用户级安全的单租户集群中使用。 ## 3. 使用DistCp在集群内和集群间复制数据 ### 3.1 问题与解决方案如果你想高效地在Hadoop集群之间复制大量数据，并具备增量复制的能力，可以使用DistCp，它是Hadoop内置的并行文件复制工具。 ### 3.2 DistCp 2版本的优势 DistCp 2支持与旧版本相同的一组命令行参数，但有许多有用的优点： - 处理大量文件时，减少了设置和执行时间，因为驱动程序不再需要预处理所有输入，现在将其推迟到映射器中处理。 - 拥有全功能的Java接口，Java客户端无需将参数序列化为字符串。 - 支持原子提交，实现全有或全无的复制语义。 - 使用 -update 选项跳过目标中已存在的文件时，如果源文件和目标文

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

Hadoop数据进出操作指南

相关推荐

专栏目录

Hadoop数据进出操作指南

相关推荐

如何使用hadoop进行数据分析.zip

使用hadoop进行数据分析

使用hadoop进行天气数据分析.zip

用于卡车目标检测的演示示例程序

springboot基于 Web的图书借阅管理信息系统【附万字论文+PPT+包部署+录制讲解视频】.zip

基于SpringBoot的电影院售票系统的设计与实现（代码+数据库 +LW）

这篇文章详细介绍了2025年中国网络安全领域的十大创新方向，涵盖了多个关键技术领域及其应用场景和典型厂商 以下是主要内容的总结：

这项研究是一个全面的、实用的指南，用于使用“白盒”方法从零开始构建大型模型。针对对深度学习有基本了解的读者，它将整个模型

MP6050相关的资料 ,包括datasheet，用户手册，开发手册，驱动代码等内容

qsynth-0.9.2-2.el8.tar.gz

abaqus 根据坐标施加载荷- Analytical Field 载荷映射

基于单html文件的函数组件化spa实验.zip

专栏目录

最新推荐

【高级图像识别技术】：PyTorch深度剖析，实现复杂分类

未知源区域检测与子扩散过程可扩展性研究

分布式应用消息监控系统详解

分布式系统中的共识变体技术解析

以客户为导向的离岸团队项目管理与敏捷转型

【PJSIP高效调试技巧】：用Qt Creator诊断网络电话问题的终极指南

嵌入式平台架构与安全：物联网时代的探索

C#并发编程：加速变色球游戏数据处理的秘诀

多项式相关定理的推广与算法研究

深度学习 vs 传统机器学习：在滑坡预测中的对比分析

这篇文章详细介绍了2025年中国网络安全领域的十大创新方向，涵盖了多个关键技术领域及其应用场景和典型厂商以下是主要内容的总结：