Hadoop入门

最新推荐文章于 2025-08-17 20:11:47 发布

HAPPY酷

最新推荐文章于 2025-08-17 20:11:47 发布

阅读量225

点赞数 2

CC 4.0 BY-SA版权

文章标签： hadoop 大数据分布式

Hadoop是什么：
- Hadoop是Apache基金会开发的一套开源软件平台。
- 它的功能是利用服务器集群对海量数据进行分布式处理。
- 核心组件包括HDFS、MapReduce、YARN和Hadoop基础功能库。
Hadoop生态系统：
- 广义上的Hadoop指的是一个更广泛的概念，即Hadoop生态圈。
- Hadoop是云计算PaaS层的解决方案之一，广泛应用于数据服务基础平台建设、用户画像、网站点击流日志数据挖掘等。

创建数据库：

CREATE DATABASE [IF NOT EXISTS] database_name
[COMMENT database_comment]
[LOCATION hdfs_path]
[WITH DBPROPERTIES (property_name=property_value,...)];

示例：

create database if not exists kaikeba;

删除数据库：

drop database if exists kaikeba;
drop database if exists kaikeba cascade; -- 强制删除数据库

从本地导入到表中：

load data local inpath '本地路径' overwrite into table table_name [partition(partcol1=val1,...)];

从HDFS导入到表中：

load data inpath 'HDFS路径' into table table_name [partition(partcol1=val1,...)];

将Hive表中的数据导出到本地：

insert overwrite local directory '本地路径' select * from table_name;

将Hive表中的数据导出到HDFS：

insert overwrite directory 'HDFS路径' select * from table_name;