
大数据
文章平均质量分 61
大数据
SpringHeather
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《用户画像:方法论与工程化解决方案》摘要
数据指标体系:根据业务线梳理,包括用户属性、用户行为、用户消费、风险控制等维度的指标体系。原创 2021-10-02 22:29:12 · 496 阅读 · 2 评论 -
电商App项目的离线数仓
相关概念SKU,SPU:首先通过检索搜索出来的商品列表中,每个商品都是一个SKU。每个SKU都有自己独立的库存数。也就是说每一个商品详情展示都是一个SKU。比如,咱们购买一台iPhoneX手机,iPhoneX手机就是一个SPU,但是你购买的时候,不可能是以iPhoneX手机为单位买的,商家也不可能以iPhoneX为单位记录库存。必须要以什么颜色什么版本的iPhoneX为单位。比如,你购买的是一台银色、128G内存的、支持联通网络的iPhoneX ,商家也会以这个单位来记录库存数。那这...原创 2021-09-27 15:29:09 · 970 阅读 · 0 评论 -
在线教育(Hive数仓)
分析数据:日志数据(app 小程序启动,用户行为,json),业务数据(订单) 前端埋点 onCLick,ajax,后端埋点数据仓库分析任务:流量主题:新增,活跃,留存 ;用户行为主题:专栏课学习 ;学情主题:训练营学员相关人员:数据产品经理,前端工程师,数据清洗,数据分析,数据展示(java)埋点方法:手动埋点(页面,按钮id,时间类型) 无痕埋点(友盟,百度移动,魔方等)软件:选择半年期的版本(CDH 学习CDH集群环境的搭建(虚拟机可演示),第一个系统内存建议大一些,不少于3G运行内存原创 2021-09-06 22:59:30 · 399 阅读 · 0 评论 -
一些大数据架构图
携程:魅族:原创 2021-09-06 12:40:08 · 309 阅读 · 0 评论 -
智慧出行spark demo 项目(2)-数据消费和数据建模预测
数据消费spark将接受到的数据按检测点聚合,然后存到redis上。package mainimport java.text.SimpleDateFormatimport java.util.Calendarimport com.alibaba.fastjson.{JSON, TypeReference}import kafka.serializer.StringDecoderimport org.apache.spark.streaming.kafka.KafkaUtilsimport原创 2020-06-16 20:37:07 · 182 阅读 · 0 评论 -
智慧出行spark demo 项目(1)--项目结构和数据生产
1原创 2020-06-15 21:02:52 · 255 阅读 · 0 评论 -
Kafka+Storm+HBase项目Demo(7)--Trident使用
本文内容部分来自Trident Tutorial。Trident是基于Storm的实时计算模型的高级抽象。它可以实现高吞吐(每秒数百万条消息)的有状态流处理和低延迟分布式查询。如果以前使用过高级批处理工具(比如Pig或Cascading),则对Trident的概念会非常熟悉,比如连接、聚合、分组、功能处理和过滤等。除此之外,Trident还增加了用于在数据库或持久化存储上进行有状态的增量处理的原语。Trident具有一致性、一次性语义,所以很容易就能够推导出Trident拓扑结构。Trident的出现算原创 2020-05-20 16:58:18 · 274 阅读 · 0 评论 -
Kafka+Storm+HBase项目Demo(6)--前端HTTP长连接实现
HTTP长连接实现HTTP长连接这种把数据从服务器主动“推”到客户端的技术,能带来的好处不言而喻。它可以把最新的统计数据输出到客户端,也可以实现即时通讯。Area.jsp<head><script type="text/javascript"> var series1 ; var series2 ; function jsFun(m) { var jsdata = eval("("+m+")"); series1.setData(ev原创 2020-05-20 16:56:00 · 275 阅读 · 0 评论 -
Kafka+Storm+HBase项目Demo(5)--topology,spout,bolt使用
相关概念1、Topologies一个topology是spouts和bolts组成的图, 通过stream groupings将图中的spouts和bolts连接起来。2、Streams消息流stream是storm里的关键抽象。一个消息流是一个没有边界的tuple序列, 而这些tuple序列会以一种分布式的方式并行地创建和处理。通过对stream中tuple序列中每个字段命名来定义stream。在默认的情况下,tuple的字段类型可以是:integer,long,short, byte,strin原创 2020-05-20 16:51:19 · 528 阅读 · 0 评论 -
Kafka+Storm+HBase项目Demo(4)--Kafka使用
第一个需求是按地区实时计算销售额,并进行3D柱图实时展示结果,含周同比。图表的数据3s自动更新。期望效果项目的架构:从Kafka开始。这里介绍Kafka一些概念。Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集原创 2020-05-20 16:48:06 · 201 阅读 · 0 评论 -
Kafka+Storm+HBase项目Demo(3)--Storm安装配置
Storm安装配置Storm集群也依赖Zookeeper集群,要保证Zookeeper集群正常运行。Storm的安装配置比较简单,我们仍然使用下面3台机器搭建:192.168.1.101 cdh1192.168.1.102 cdh2192.168.1.103 cdh3首先,在cdh1节点上,执行如下命令安装:cd /usr/local/wget http://mirror.bit.edu.cn/apache/incubator/storm/apache-storm-0.9.2-i原创 2020-05-20 16:44:50 · 133 阅读 · 0 评论 -
Kafka+Storm+HBase项目Demo(2)--Kafka环境搭建
下面安装KafkaKafka是LinkedIn开源出来的一个高吞吐的分布式消息系统。使用scala开发,支持多语言客户端(c++、java、python等)Broker:消息中间件处理结点,一个kafka节点就是一个brokerProducer:消息发布者Consumer:消息订阅者搭建步骤Kafka下载:wget https://archive.apache.org/dist/kafka/0.8.1/kafka_2.9.2-0.8.1.tgz解压 tar zxvf kafka_2.9.原创 2020-05-20 16:43:33 · 226 阅读 · 0 评论 -
Kafka+Storm+HBase项目Demo(1)--CDH搭建hadoop集群
这是一个类似淘宝双11大屏幕的项目 。kafka+storm+hbase整合:kafka作为分布式消息系统,实时消息系统,有生产者和消费者;storm作为大数据的实时处理系统;hbase是apache hadoop 的数据库,其具有高效的读写性能。Cloudera的CDH和Apache的Hadoop的区别目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distributio原创 2020-05-20 16:40:05 · 416 阅读 · 0 评论 -
Hive内部表、外部表、分区表介绍
如果在创建表时不指定external关键字,则默认的是创建管理表(内部表),内部表对应的目录必须存储在hive的数据仓库中。create table trade_detail(id bigint, account string, income double, expenses double, time string) row format delimited fields terminated by '\t';还有一种表是指定external关键字的表,即外部表。如何创建外部表。create原创 2020-05-23 20:01:48 · 531 阅读 · 0 评论 -
HDFS工作机制
一些特点1. HDFS集群分为两大角色:NameNode、DataNode2. NameNode负责客户端请求的响应,负责管理整个文件系统的元数据3. DataNode 负责管理用户的文件数据块4. 文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上,默认大小在hadoop2.x版本中是128M5. 每一个文件块可以有多个副本,并存放在不同的datanode上6. Datanode会定期向Namenode汇报自身所保存的文件block信息,而nameno原创 2020-05-23 20:02:03 · 203 阅读 · 0 评论 -
HIVE架构
什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。HIve架构基本组成用户接口:包括 CLI、JDBC/ODBC、WebGUI。元数据存储:通常是存储在关系数据库如 mysql,derby中。解释器、编译器、优化器、执行器。各组件的基本功能1.用户接口主要由三个:CLI、JDBC/ODBC和WebGUI。其中,CLI为shell命令行;JDBC/ODBC是Hive的JAVA实现,与传统数据库J.原创 2020-05-23 20:02:18 · 517 阅读 · 0 评论 -
HBASE 原理
数据模型1)行键(RowKey)– 行键是字节数组, 任何字符串都可以作为行键;– 表中的行根据行键进行排序,数据按照Row key的字节序(byte order)排序存储;– 所有对表的访问都要通过行键 (单个RowKey访问,或RowKey范围访问,或全表扫描)2)列族(ColumnFamily)– CF必须在表定义时给出– 每个CF可以有一个或多个列成员(ColumnQualifier),列成员不需要在表定义时给出,新的列族成员可以随后按需、动态加入– 数据按CF分开存储,HBase原创 2020-05-20 16:04:20 · 1235 阅读 · 0 评论