
大数据
文章平均质量分 92
大数据
吹老师个人app编程教学
好好学习,天天向上。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
clickhouse-题库
1、clickhouse介绍以及架构1、clickhouse介绍以及架构clickhouse一个分布式列式存储数据库,主要用于在线分析查询2、列式存储和行式存储有什么区别?行式存储:1)、数据是按行存储的2)、没有建立索引的查询消耗很大的IO3)、建立索引和视图花费一定的物理空间和时间资源4)、面对大量的查询,复杂的复杂的数据库必须使用大量性能才能满足列式存储:1)、数据按列存储,每一列单独存放2)、只访问查询设计的列,大量降低系统的IO。原创 2024-12-20 16:57:18 · 1030 阅读 · 0 评论 -
clickhouse-副本和分片
这里有两种区分的方法。一种是从数据层面区分,假设ClickHouse的N个节点组成了一个集群,在集群的各个节点上,都有一张结构相同的数据表Y。换言之,分片之间的数据是不同的,而副本之间的数据是完全相同的。但是在通信的过程中,并不会涉及任何表数据的传输,在查询数据的时候也不会访问ZooKeeper,所以不必过于担心ZooKeeper的承载压力。集群是副本和分片的基础,它将ClickHouse的服务拓扑由单节点延伸到多个节点,但它并不像Hadoop生态的某些系统那样,要求所有节点组成一个单一的大集群。原创 2024-12-19 10:02:24 · 1516 阅读 · 0 评论 -
clickhouse-数据库引擎
任何一个批次的数据写入都会产生一个临时分区,也就是写入一个新的分区目录,不会纳入任何一个已有的分区。写入后的某个时刻(大概10-15分钟后),ClickHouse会自动执行合并操作(等不及也可以手动通过optimize执行),把临时分区的数据,合并到已有分区中,已经存在的旧分区目录并不会立即被删除,而是在之后的某个时刻通过后台任务被删除(默认8分钟)。如果在 SELECT 查询中没有指定_version,则使用 FINAL 修饰符,返回_version 的最大值对应的数据,即最新版本的数据;原创 2024-12-18 07:17:19 · 1484 阅读 · 0 评论 -
clickhouse-介绍、安装、数据类型、sql
如果在配置文件中有::,就改成0.0.0.0,因为::是IPv6的通配符,我部署clickhouse的机器不支持ipv6。第一列是限制的用户和用户组,soft软限制,hard硬限制,nofile打开文件数,nproc用户进程数,退出当前用户,重启登录,DBMS的功能:几乎覆盖了标准SQL的大部分语法,包括DDL和DML,以及配套的各种函数,用户管理及权限管理,数据的备份与恢复;原创 2024-12-18 06:17:29 · 1966 阅读 · 0 评论 -
数据湖定义
当一个client正在读取v1的数据时,另一个client可以同时写入新的数据,新的数据会被写入新的文件里,不影响v1用到的数据文件。后续的client再读取时,读到的就是v2的数据。如果是 update 消息,写对应的 file group + file slice,直接 append 最新的 log file(如果碰巧是当前最小的小文件,会 merge base file,生成新的 file slice)log file 大小达到阈值会 roll over 一个新的。原创 2024-10-28 09:26:28 · 1140 阅读 · 0 评论 -
Hadoop生态简介,Hive、Spark、HBase等
Zookeeper采用选举机制选举Leader,其它节点作为Follower或Observer存在,当Leader挂掉之后,会重新选举Leader,但选举的过程需要时间,对于Hadoop这样的计算性集群而言可能不算什么,但对于电商系统这样高速运算的系统而言,集群停摆几秒就可能导致非常严重的后果,所以之前Dubbo这样的中间件使用Zookeepr作为注册中心就具有一定的风险,只要Leader停摆,集群就需要一直等,等待新的Leader上线。原创 2024-10-26 22:49:07 · 1526 阅读 · 0 评论