目录
第Ⅰ部分 Hadoop基础知识
第1章 初识Hadoop 3
1.1 数据!数据! 3
1.2 数据的存储与分析 5
1.3 查询所有数据 6
1.4 不仅仅是批处理 7
1.5 相较于其他系统的优势 8
1.5.1 关系型数据库管理系统 8
1.5.2 网格计算 10
1.5.3 志愿计算 11
1.6 Apache Hadoop发展简史 12
1.7 本书包含的内容 16
第2章 关于MapReduce 19
2.1 气象数据集 19
2.2 使用Unix工具来分析数据 21
2.3 使用Hadoop来分析数据 22
2.3.1 map和reduce 23
2.3.2 Java MapReduce 24
2.4 横向扩展 31
2.4.1 数据流 31
2.4.2 biner函数 35
2.4.3 运行分布式的MapReduce作业 37
2.5 Hadoop Streaming 37
2.5.1 Ruby版本 38
2.5.2 Python版本 40
第3章 Hadoop分布式文件系统 42
3.1 HDFS的设计 42
3.2 HDFS的概念 44
3.2.1 数据块 44
3.2.2 namenode和datanode 45
3.2.3 块缓存 46
3.2.4 联邦HDFS 47
3.2.5 HDFS的高可用性 47
3.3 命令行接口 50
3.4 Hadoop文件系统 52
3.5 Java接口 56
3.5.1 从Hadoop URL读取数据 56
3.5.2 通过FileSystem API读取数据 58
3.5.3 写入数据 61
3.5.4 目录 63
3.5.5 查询文件系统 63
3.5.6 删除数据 68
3.6 数据流 68
3.6.1 剖析文件读取 68
3.6.2 剖析文件写入 71
3.6.3 一致模型 74
3.7 通过distcp并行复制 76
第4章 关于YARN 78
4.1 剖析YARN应用运行机制 79
4.1.1 资源请求 80
4.1.2 应用生命期 81
4.1.3 构建YARN应用 81
4.2 YARN与MapReduce 1相比 82
4.3 YARN中的调度 85
4.3.1 调度选项 85
4.3.2 容量调度器配置 87
4.3.3 公平调度器配置 89
4.3.5 延迟调度 93
4.3.5 主导资源公平性 94
4.4 延伸阅读 95
第5章 Hadoop的I/O操作 96
5.1 数据完整性 96
5.1.1 HDFS的数据完整性 97
5.1.2 LocalFileSystem 98
5.1.3 ChecksumFileSystem 98
5.2 压缩 99
5.2.1 codec 100
5.2.2 压缩和输入分片 105
5.2.3 在MapReduce中使用压缩 106
5.3 序列化 109
5.3.1 Writable接口 110
5.3.2 Writable类 112
5.3.3 实现定制的Writable集合 121
5.3.4 序列化框架 125
5.4 基于文件的数据结构 127
5.4.1 关于SequenceFile 127
5.4.2 关于MapFile 135
5.4.3 其他文件格式和面向列的格式 136
第Ⅱ部分 关于MapReduce
第6章 MapReduce应用开发 141
6.1 用于配置的API 142
6.1.1 资源合并 143
6.1.2 变量扩展 144
6.2 配置开发环境 144
6.2.1 管理配置 146
6.2.2 辅助类GenericOptionsParser,Tool和ToolRunner 149
6
Hadoop权威指南.大数据的存储与分析.第4版目录
最新推荐文章于 2024-10-31 10:40:38 发布