java hdfs_Java接口方式操作HDFS

最新推荐文章于 2023-04-24 21:00:46 发布

原创最新推荐文章于 2023-04-24 21:00:46 发布 · 211 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#java hdfs

代码无非是工具，原理是一样的。

创建java 工程

首先导入所需要的包

--解压之前发送到虚拟机上的压缩包

--我们需要的jar包在share目录下

这里先导入了common下的包

同理再导入hdfs目录下的包(lib里面的包导入时overwrite就好了)

(我这边lib下已经有74个jar包了)

然后右键add to build path

就有一堆小奶瓶了

下面开始编写简单的测试代码

(编码过程看源码可去解压包中找sources目录，如下图)

代码

package cn.dudu;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStream;

import java.io.OutputStream;

import java.net.URI;

import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

public class HadoopTest01 {

public static void main(String[] args) {

/** public static FileSystem get(* final URI uri,* final Configuration conf,* final String user) throws IOException, InterruptedException*/

//第一个参数URI表示要链接的hdfs的地址//第二个参数Configuration表示获取hdfs中的默认配置//第三个参数可选，指定链接的用户名(不同用户所有的权限不同)Configuration conf=new Configuration();

try {

FileSystem fs=FileSystem.get(new URI("hdfs://192.168.220.132:9000"), conf,"root");

System.out.println("链接成功");

//连接要读取的文件InputStream in=fs.open(new Path("/a.txt"));

FileOutputStream out1=new FileOutputStream("a.txt");

//如果creat方法成功，去hdfs中能看到b.txt有三个relication而之前的a.txt只有一个复本//这是因为如果不配置，会按照程序中的默认配置来进行//程序中的默认配置高于xml中的配置(xml中复本设置是1)//权限不足会报错org.apache.hadoop.security.AccessControlException: Permission denied:OutputStream out2=fs.create(new Path("/b.txt"));

//hadoop提供的工具类IOUtils//表示按照指定的配置，将输入流中的数据写出到输出流//IOUtils.copyBytes(in, out1, conf);//copyBytes方法里面有关流操作//所以执行该方法后再调用那些输入、输出流会报流已关闭的错误

IOUtils.copyBytes(in, out2, conf);

} catch (IOException | URISyntaxException e) {

System.out.println("报错了，我的天");

e.printStackTrace();

} catch (InterruptedException e) {

System.out.println("哎呦喂，天都塌了");

e.printStackTrace();

}

测试记录(主要是对FSDataInputStream类，seek、skip、readFully方法做了小测试)

package cn.dudu;

import java.io.FileInputStream;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStream;

import java.io.OutputStream;

import java.net.URI;

import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

import org.apache.hadoop.record.Buffer;

public class HadoopTest01 {

public static void main(String[] args) {

* public static FileSystem get(

* final URI uri,

* final Configuration conf,

* final String user) throws IOException, InterruptedException

//第一个参数URI表示要链接的hdfs的地址

//第二个参数Configuration表示获取hdfs中的默认配置

//第三个参数可选，指定链接的用户名(不同用户所有的权限不同)

Configuration conf=new Configuration();

FSDataInputStream in=null;

try {

FileSystem fs=FileSystem.get(new URI("hdfs://192.168.220.132:9000"), conf,"root");

System.out.println("链接成功");

//连接要读取的文件

//InputStream in=fs.open(new Path("/a.txt"));

//InputStream in=new FileInputStream("a.txt");

in=fs.open(new Path("/c.txt"));

//FileOutputStream out1=new FileOutputStream("a.txt");

//如果creat方法成功，去hdfs中能看到b.txt有三个relication而之前的a.txt只有一个复本

//这是因为如果不配置，会按照程序中的默认配置来进行

//程序中的默认配置高于xml中的配置(xml中复本设置是1)

//权限不足会报错org.apache.hadoop.security.AccessControlException: Permission denied:

//OutputStream out2=fs.create(new Path("/c.txt"));

//hadoop提供的工具类IOUtils

//表示按照指定的配置，将输入流中的数据写出到输出流

//IOUtils.copyBytes(in, out1, conf);

//copyBytes方法里面有关流操作

//所以执行该方法后再调用那些输入、输出流会报流已关闭的错误

//IOUtils.copyBytes(in, System.out, 4096, false);

in.seek(0);//绝对定位

//in.skip(-1);//相对定位

byte[] byte2=new byte[3];

in.readFully(4, byte2,0,3);

IOUtils.copyBytes(in, System.out, 4096, false);

System.out.println("这边来"+(char)byte2[0]+"....."+(char)byte2[1]+"....."+(char)byte2[2]);

//IOUtils.copyBytes(in, out2, conf);

} catch (IOException | URISyntaxException e) {

System.out.println("报错了，我的天");

e.printStackTrace();

} catch (InterruptedException e) {

System.out.println("哎呦喂，天都塌了");

e.printStackTrace();

}finally {

IOUtils.closeStream(in);

}

简单的测试之后我们接下来先。。。。。。

——在eclipse中加入hadoop-eclipse-plugin-2.7.1.jar插件

为什么要加入插件呢？

无非是想将代码所呈现的结果能被更直接更快速地看到

——首先如果没有本篇中jar包资源的可联系本人QQ1152901473

——验证的时候记得表面意图

(其实入IT的坑，强大的资源搜索能力是必不可少的)

(虽然本人也是老师提供的资源，哈哈哈)

先把jar包拷贝到eclipse安装目录的plugins目录下，

看不清看这边

然后重新打开eclipse你会发现

打开Window-》Preferences下面多了Hadoop Map/Reduce这个东东

然后把安装目录导进去

然后Window-》Show View-》Other

输入一个M 可以看到Map/Reduce Locations

然后有这个界面了

点击这里的小蓝象配置HDFS连接

这里端口号9000是之前在core-site.xml里面配置的，在我《初始hadoop》那篇里面有写

配置完了可以在Project Explorer界面(要是没这个界面可以在window-》show view里找到)看到你刚刚配置的，要是连的虚拟机地址，虚拟机上hadoop服务别忘了开

如果配置错误需要更改，可在Map/Reduce Locations里右键编辑

然后Project Explorer里面右键Refresh刷新，Reconnect重连

成功连上是会有目录结构的

然后你试着操作了一下

发现右键删除的权限都没有(比如删除c.txt)

有一种方法就是——

配置一个环境变量

我的电脑右键-》属性-》高级系统设置-》环境变量

新建系统变量

HADOOP_USER_NAME

root

无奈的是本以为重启eclipse就可以生效了

然并卵

不得已重启了一下电脑

然后再开虚拟机，开hadoop

开eclipse

所幸的是终于能删了

这个c.txt真是小强啊

代码所列方法有限，感兴趣的可自行测试