Hadoop系列之-4、MapReduce分布式计算

最新推荐文章于 2024-11-18 14:55:13 发布

技术武器库

最新推荐文章于 2024-11-18 14:55:13 发布

阅读量520

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据专栏文章标签： hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/l848168/article/details/119385152

大数据专栏专栏收录该内容

83 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

大数据系列文章目录

目录

MapReduce计算模型介绍
- 理解MapReduce思想
- Hadoop MapReduce设计构思
MapReduce编程规范及示例编写
MapReduce程序运行模式
- 本地运行模式
- 集群运行模式
结束

之前详细讲解了，Zookeeper和HDFS，从下面开始来继续Hadoop系列的另外一个组件，MapReduce。

MapReduce计算模型介绍

理解MapReduce思想

MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“ 分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想，而不是自己原创。

Map负责“分” ，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。

Reduce负责“合” ，即对map阶段的结果进行全局汇总。

这两个阶段合起来正是MapReduce思想的体现。

了解本专栏

超级会员免费看

技术武器库

博客等级

码龄8年

Java领域优质创作者

博客专家认证

231
原创

498
点赞

1197
收藏

2万+
粉丝

关注

私信

热门文章

分类专栏

大数据专栏付费 83篇
爬虫和自动化测试 1篇
feign 1篇
网盘 2篇
服务器 1篇
xmind 1篇
Excel 1篇
Dubbo 1篇
JAVA-GUI专栏 2篇
Spring系列 1篇
ChatGPT
ShardingSphere 5篇
吐血整理 55篇
JAVA多线程与并发 18篇
Redis 6篇
SpringCloud 7篇
SpringBoot 11篇
Linux 16篇
Docker 3篇
Mybatis 8篇
Mysql 7篇
IDEA
JVM 5篇
Netty 1篇
ËlasticaSearch 1篇
Jmeter 2篇
Jenkins 3篇
Java基础 3篇
Windows 4篇

展开全部收起

上一篇：: Hadoop系列之-3、HDFS高阶+实操

下一篇：: Hadoop系列之-5、MapReduce高阶部分

最新评论

EasyPoi表头如何合并导出？
技术武器库: map 不能转换为 collection ，它们是2个类型
EasyPoi表头如何合并导出？
douxnxa: 一直在报这个错： java.lang.ClassCastException: java.util.HashMap cannot be cast to java.util.Collection at cn.afterturn.easypoi.excel.export.base.ExportCommonService.getListCellValue(ExportCommonService.java:263) ~[easypoi-base-4.4.0.jar:na] at cn.afterturn.easypoi.excel.export.base.BaseExportService.createCells(BaseExportService.java:83) ~[easypoi-base-4.4.0.jar:na] at cn.afterturn.easypoi.excel.export.ExcelExportService.insertDataToSheet(ExcelExportService.java:276) [easypoi-base-4.4.0.jar:na] at cn.afterturn.easypoi.excel.export.ExcelExportService.createSheetForMap(ExcelExportService.java:214) [easypoi-base-4.4.0.jar:na]
集群部署下，动态生成雪花算法WorkId和DataCenterId
会撩头发的程序猿: 应该要消除这个概率，你这种拿host取模，实例多了自然会重复，而且你也没有完全复用wordId和dataCenterId得1024种组合，最好的方法就是用redis的自增Id取模，当然了如果大项目实例超过了1024，单独部署一个服务生成分布式Id就好。
集群部署下，动态生成雪花算法WorkId和DataCenterId
技术武器库: wordId和dataCenterId会有小概率重复，例如有2个节点重复，但是重复的2个节点又在同一毫秒内，使用多线程大量去生成ID，种种概率加在一起，其实非常低
集群部署下，动态生成雪花算法WorkId和DataCenterId
会撩头发的程序猿: 你这种方式，两个Id会重复的，都是32取模，你这样都不能完全利用他们的1024种组合（32*32），有重复的几率。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

技术武器库 一句真诚的谢谢，胜过千言万语

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。