
大数据
文章平均质量分 92
zhangSir134
不断思考,不断总结
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习笔记(常见算法)
大概了解常见算法原创 2020-04-08 02:32:06 · 7580 阅读 · 0 评论 -
机器学习笔记(了解)
大概了解机器学习原创 2020-04-08 02:01:41 · 7439 阅读 · 0 评论 -
[设计模式] ------ 代理模式
几句话讲明白代理模式 代理模式: 1.定义 个接口A,接口有个方法methodA(); 2.定义一个实现类B,实现这个接口A,并重写方法methodA(); 3.定义一个代理类C,也实现接口A,并将类B作为他的一个属性, 然后C也重写方法methodA();但方法的实现为B调用B中重写的方法 这样就是一个简单的代理模式,其中B和C实现了相同的接口,都重写了接口中的方法,但最终调...原创 2018-06-11 23:29:43 · 7568 阅读 · 0 评论 -
大数据相关整理
1.hdfs 1.1.namenode 所有文件的读写入口,用来保存文件的元信息 元信息包括: fsimage文件: 文件权限信息 文件在block块的偏移量 文件的位置信息 editlogs文件:对文件的写操作日志 文件写日志指令,为了安全同步,重启会执行指令 1.2.datanode 用来真正保存文件内容的节点 datanode有很多个,保存的是若干个block块 1.3.s...原创 2019-04-10 01:35:18 · 7707 阅读 · 0 评论 -
数据仓库基本认知
数据仓库概念: 数据仓库,英文名称Data Warehouse,简写为DW。 是一种面向分析的存储系统。 他是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。 它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。 数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。 数据仓...原创 2019-03-13 09:25:25 · 7718 阅读 · 0 评论 -
想法记录---实时计算的TopN的实现
TopN就是找出时间段内出现频率最高的n个 TopN的计算是个老生常谈的话题,比如微博的热搜,都是隔段时间就统计一次TopN 现在想做一个实时计算的TopN. 先说说离线计算的TopN,再说实时TopN ###离线TopN 离线TopN一般出现在大数据的应用场景,使用hadoop的map reduce,网上有很多案例 ###实时TopN 实时的计算,相比离线计算,会有如下问题 1.实时计算的数据不...原创 2018-09-19 22:40:10 · 9645 阅读 · 0 评论 -
订单单量监控v2
前段时间做了一个订单单量监控的项目,已经投入使用了,现在总结一下 整体使用了storm实时计算框架和redis数据库,还有kafka 先简单说下整体思路,后面再将详细实现 1.在页面下单成功的地方跨域调用一次kafka的服务 2.kafka的服务接到这次调用,发送kafka消息 3.storm服务实时接收kafka消息,将消息作为数据源,开始统计一段时间内的订单量 4.拿这段时间内的订单量和预测数...原创 2018-09-17 21:07:26 · 9130 阅读 · 3 评论 -
zookeeper基础整理
1、工作原理 Zookeeper的核心是原子广播,这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式,它们分别是恢复模式(选主)和广播模式(同步)。当服务启动或者在领导者崩溃后,Zab就进入了恢复模式,当领导者被选举出来,且大多数Server完成了和leader的状态同步以后,恢复模式就结束了。状态同步保证了leader和Server具有相同的系统状...原创 2018-08-21 23:37:35 · 7689 阅读 · 0 评论 -
storm消息可靠机制(ack)的原理和使用
前言: storm的消息可靠机制可以确保spout发出的每条消息都会被完整的处理 当然,如果你的系统不是那么在乎那么精确的每条消息都要,那么这个机制可以适当忽略 本文主要讨论storm的消息可靠机制的原理和使用...原创 2018-08-28 22:37:40 · 8666 阅读 · 1 评论 -
storm的流分组策略
storm中有多个bolt和多个spout,他们之间会有多种连接方式,他们之间的tulpe也是多种传递方式,正是有了这些灵活的分组策略,才使得storm可以分层处理,每层bolt都只做自己的事情 storm里面有7种 stream grouping 1.shuffle grouping 2.fields grouping 3.all grouping 4.global group...原创 2018-08-28 22:04:38 · 8873 阅读 · 0 评论 -
storm的并行度的解释--- ( 看完就能理解 )
关于storm的基础,参照我这篇文章:https://blog.csdn.net/java_zhangshuai/article/details/81462272 本文说的是对storm的并行理解和如何在代码中实际的设置 1.Worker Worker是进程级别的,一个worker进程对应执行一个Topology服务 2.Executer Executer是线程级别,一个Worker进程...原创 2018-08-28 09:58:23 · 9871 阅读 · 2 评论 -
流式计算storm核心组件介绍以及入门案例---跟着就能在本地跑起来的storm项目
storm简介 storm与其他流式计算框架的对比 storm优缺点 storm入门案例原创 2018-08-06 22:06:09 · 8970 阅读 · 0 评论