- 博客(30)
- 资源 (3)
- 收藏
- 关注
转载 转载:Apache Doris、DorisDB傻傻分不清……
大家擦亮眼睛,摘录一部分:"比如 DorisDB 的商标问题,从品牌角度来说,开源项目与商业化产品的品牌必须存在区分度,比如 Linux 和 RedHat 、 Hadoop 与 Cloudera 、Apache Kylin 和 Kyligence 。DorisDB 和 Apache Doris ,相信很多开源用户在初次接触 Doris 的时候都会迷惑这两个产品的区别是什么,甚至以为是同一个产品。这也是 DorisDB 的目的所在,品牌上的混淆可以带来用户流量,这就够了。而 Apache 基金会对此事件有过多
2021-10-13 18:27:00
2432
3
原创 PostgreSQL源码系列二:Postgres-XL调试基础&GDB Debug范例
一. 前言接上一篇,上篇的pg_hba的配置还是有点问题的,本篇将通过Debug来解析问题根源。二. 问题由于postgres是超级管理账户,实际使用中不可能开放给普通用户,我们模拟下生产环境,新建库和用户。[postgres@k8s03 ~]$ psql -hk8s01 -Upostgres -p5433psql (PGXL 10r1, based on PG 10.5 (Postgres-XL 10r1))Type “help” for help.postgres=# revoke all
2021-10-11 16:58:43
1324
原创 PostgreSQL源码系列一:Postgres-XL编译&安装&配置
一. 前言PostgreSQL使用比较广泛,但Postgres-XL相对少很多,网络上的很多文章都是学习&实验性质,仅从对pg_hba.conf的配置来看,大多一笔带过,不适合生产部署;官网的Tutorial(https://www.postgres-xl.org/documentation/index.html)写的太敷衍,实用性非常差!为了方便熟悉Postgres-XL的原理,本文参考官网文档,使用最原始的方法安装(建议使用官方推荐的pgxc_ctl工具,更方便快捷)二.系统架构三.编译
2021-10-09 15:10:54
891
原创 Oracle GoldenGate:DML过滤&官方文档的BUG
有些特殊的DML过滤需求,比如:仅仅同步update&delete数据,不同步insert,由于算比较罕见的用法,网络上的详细资料比较少,官方的文档又有些问题,花些精力详细研究了下相关资料&做了些测试,供对此功能有需求或疑问的朋友做参考!一.需求某表只需要同步update,delete记录,insert记录不同步。二.官方文档11g和12c官方文档的描述差异并不大:Oracle® GoldenGate Windows and UNIX Reference Guide 11g Rel
2021-09-16 20:18:43
336
原创 MySQL HA方案:MMM,MHA,Orchestrator,MGR
一.前言MySQL常用的HA方案:MMM,MHA;前者已经很多年没有更新版本了,不推荐使用,MHA也有多年未更新了,5.7及以上版本也不推荐使用,一些新特性要么不支持,要么会触发BUG;综合看Orchestrator相对来说算是目前比较好的解决方案。二.简介Orchestrator是使用go语言编写的MySQL高可用性和复制拓扑管理工具,支持复制拓扑结构的调整,自动故障转移和手动主从切换等。后端数据库用MySQL或SQLite存储元数据,并提供Web界面展示MySQL复制的拓扑关系及状态,通过Web可
2021-07-19 19:36:56
2149
原创 云计算虚拟化:k8s进阶-CRD开发基础
一. 前言CRD:Custom Resources Definition,即在Kubernetes 中添加一个和 Pod、service 类似的、新的 API 资源类型,用于统一部署/编排多个内置K8S资源(pod,service等)。为什么需要CRD?helm也可以做到统一部署/编排deployment,service,ingress,但它缺乏对资源的全生命周期的监控,CRD通过apiserver接口,在etcd中注册一种新的资源类型,此后就可以创建对应的资源对象&并监控它们的状态&
2021-01-01 19:58:48
6173
原创 云计算虚拟化:k8s认证流程&用户&用户组&权限相关
一. 前言Kubernetes集群有两类用户:由Kubernetes管理的Service Accounts (服务账户)和(Users Accounts) 普通账户/用户;前者由Kubernetes进行管理主要用于pod;后者由外部应用进行管理,主要是人在安全方面,Kubernetes通过一系列机制来实现集群的安全控制,其中包括API Server的认证授权、准入控制机制及保护敏感信息的Secret机制等,Kubernetes集群中所有资源的访问和变更都是通过Kubernetes API Server
2020-09-28 17:25:02
1788
原创 云计算虚拟化:k8s二进制Master主备集群部署
一.前言无论从成本还是效率上考虑,k8s都极占优势,基本代表了未来趋势,官网推荐kubeadm配置,虽然方便,但掩盖了许多细节问题;k8s虽然咋看仅仅是个容器编排工具,但涉及的相关知识面非常广泛,如果说大数据的相关知识你需要花N天,K8S相关知识基本不会少于2N,如果要深入了解,非一日之功,从二进制部署起步,来日方长,本文是学习笔记的整理,仅作参考。二.系统架构k8s版本:1.18.6三.部署1.preinstall check all nodes1.1 swapoff1.2 disable
2020-09-11 10:35:13
1394
原创 大数据系列七:Storm实时流计算-滑动窗口(Kafka to File)
一.前言Storm安装配置没有使用Hadoop,比较简单,网络相关介绍比较多,大概列下。二.安装配置2.1 tar -zxvf apache-storm-1.0.5.tar.gz2.2 vi /etc/profileSTORM_HOME=/mnt/data/software/stormPATH=PATH:PATH:PATH:STORM_HOME/bin2.3 vi storm.yamlstorm.zookeeper.servers:- “ipsnode1”- “ipsnode2”- “
2020-06-26 18:58:37
623
原创 大数据系列六:Spark实时流计算-滑动窗口(sliding window)
一.前言为什么会有流计算?因为有流^_^为什么会有流?这个原因比较复杂,部分是因为RDBMS解决不了,部分是为了解耦,部分是因为数据价值密度太低…,部分是因为架构^_^二.概念窗口:指定了时间长度和延时长度的时间段(长度也就是时间),比如:长度是5分钟,并且允许有1分钟的延迟。窗口的创建时间:第一个元素到达就创建。窗口的销毁时间:在窗口时间长度+延时长度到时。每个窗口都会绑定一个触发器和一个执行函数,触发器定义了何时会触发窗口的执行函数的计算,比如水位经过了窗口结束时间的时候窗口产生的目
2020-06-26 17:27:03
1768
原创 大数据系列五:Hive
一.前言Hive是建立在Hadoop之上的数据仓库,由Facebook开发,现在是apache顶级开源项目;它依赖于HDFS存储数据,依赖MR处理数据;不完全支持SQL标准,其事务支持,索引,子查询和连接操作也存在很多限制,新版本已经支持update,但效率不高;Hive主要由三个模块:1.用户接口模块,含CLI、HWI、JDBC、Thrift Server 。2.驱动模块(Driver),含编译器、优化器、执行器等 。3.元数据存储模块(Metastore),是一个独立的关系型数据库,通常与M
2020-06-26 16:24:55
2468
原创 大数据系列四:HBase
一.前言HBASE是KEYVALUE存储,面向列的多版本映射分布式数据库。HBASE架构简图如下:不多介绍,对于非结构化数据,现在有很多解决方案,HBASE除非历史遗留,一般不会是最适合的那个,适当了解即可。二.安装配置1.zookeeper1.1 vi /etc/profile in all zk nodes#########################export ZOOKEEPER_HOME=/usr/local/zookeeper-3.6.0/export PATH=$PAT
2020-06-25 18:06:44
243
原创 大数据系列三:Hadoop HA+Federation(联邦)
一.前言为什么需要Federation(联邦)?HA虽然提供了两个名称节点,解决了单点故障问题,但某时刻只有一个是活动状态,并没有解决可扩展性,系统性能,隔离性问题。Federation(联邦)设计了多个相互独立的名称节点,使命名服务能水平扩展,这些节点分别进行各自命名空间和块管理,相互之间是联邦关系,不需要相互协调,降低了复杂性。Federation(联邦)的核心可以说是viewfs,这个技术像什么呢!通俗点讲,和nfs挂载有点类似,如下图hdfs提供了统一的挂载点app&doc,其背后对
2020-06-25 17:46:58
934
原创 大数据系列二:Hadoop HA
一.前言Hadoop HA主要解决HDFS NameCode&YARN ResourceManager单点故障问题,通过引入备用资源,在主资源发生故障时通过zk切换到备用资源。二.配置2.1 HDFS HA注意:主备切换主要依赖两项配置:1.能相互免密登录2.dfs.ha.fencing.methods2.1.1 vi hadoop-env.sh##################added for HDFS haexport HDFS_JOURNALNODE_USER=root
2020-06-25 16:59:31
545
原创 大数据系列一:Hadoop安装&配置&基本测试
一.前言趁这几天放假,把以前大数据学习笔记梳理下,复习&整合下知识点,包含hadoop系列,流计算框架,ELK Stack等;大数据的笔记相对完整些,开源词法&语法分析工具ANTLR4本来想分享一个系列,无奈笔记太零散了,代码又比较多,实在没精力整合;希望这个系列能完成。二.基础配置2.1.OS准备3台centos/rhel7服务器,虚机/实体机都可以,OS默认安装即可。IP&HOSTNAME:192.168.100.101 ipsnode1192.168.100.102
2020-06-25 12:07:46
709
原创 Oracle数据迁移至ClickHouse(二):flume
一.前言最近研究flume时发现,网络上的资料多少都有些问题,针对clickhouse引用最多的flume sink是:https://reviews.apache.org/r/50692/diff/1#2,这个源码的pom.xml是存在问题的,根本无法编译;其次clickhouse官网的jdbc驱动效率不高,鉴于此,我利用官网推荐的第三方jdbc重新写了一版flume sink,相关过程见下文。二.数据库环境准备oracle:create table tdba_test( TID
2020-06-22 11:25:12
2183
1
原创 Oracle数据迁移至ClickHouse(一):datax
一.前言ClickHouse是andex在2016年6月15日开源了一个数据分析的数据库,国内一些大厂也在使用:今日头条 内部用ClickHouse来做用户行为分析,内部一共几千个ClickHouse节点,单集群最大1200节点,总数据量几十PB,日增原始数据300TB左右,大多数查询相应时间在几秒钟。腾讯内部用ClickHouse做游戏数据分析,并且为之建立了一整套监控运维体系。携程内部...
2020-04-10 10:56:58
9000
6
原创 开源词法&语法分析工具系列一:ANTLR4入门
前言为什么要研究这个工具?最初是为了做sql审核,本来想找一款开源的sql审核软件,无奈国内某著名电商开源的一款产品居然闭源了,另外一款产品只有部分开源,核心代码也是闭源;不得已,只有自己动手丰衣足食了,刚开始研究了python的sqlparse库,但它不能保证解析的正确性,只能放弃;后来转向阿里的开源连接池druid,想利用它的sql解析功能,研究了几天,也许是文档不全的原因,也许是我jav...
2019-12-24 19:26:17
3644
原创 修改Zabbix Percona监控插件模板&自定义监控项目
Zabbix自带的MySQL监控功能有限,所以很少采用,业界一般使用Percona Monitoring Plugins 监控 MySQLPercona 为 MySQL 数据库服务器进行了改进,在功能和性能上较 MySQL 有着很显著的提升。该版本提升了在高负载情况下的 InnoDB 的性能、为 DBA 提供一些非常有用的性能诊断工具;另外有更多的参数和命令来控制服务器行为。具体安装配置参见:...
2019-12-24 19:01:20
328
原创 Oracle绑定变量分级-实测
在oracle 中,对于一个提交的sql语句,存在两种可选的解析过程, 一种叫做硬解析,一种叫做软解析.一个硬解析需要经解析,制定执行路径,优化访问计划等许多的步骤.硬解释不仅仅耗费大量的cpu,更重要的是会占据重要的们闩(latch)资源,严重的影响系统的规模的扩大(即限制了系统的并发行), 而且引起的问题不能通过增加内存条和cpu的数量来解决。这是因为门闩是为了顺序访问以及修改一些内存区域而...
2019-12-24 18:47:55
462
原创 Linux系统分析调试工具systemtap
Linux有一个和solaris的dtrace类似的工具systemtap,同样很强大,本文主要介绍此工具,最后用这个工具编写脚本,做一下应用瓶颈分析。一.简介SystemTap是一个诊断Linux系统性能或功能问题的开源软件。它使得对运行时的Linux系统进行诊断调式变得更容易、更简单。有了它,开发者或调试人员不再需要重编译、安装新内核、重启动等烦人的步骤。为了诊断系统问题或性能,开发者或...
2019-12-24 18:25:42
808
原创 solaris dtrace系列三:dtrace应用进阶-在应用中添加自定义的探测器
上面两篇讲解了dtrace的基本概念,这次来看下dtrace的进阶应用,在源码中添加自定义的探测器一:为什么需要自定义探测器?Solaris(包括 OpenSolaris)、FreeBSD 和 Mac OS X都支持使用标准的 DTrace 探测。这包括在代码中不同函数边界由操作系统实现的那些探测。这些探测称为 Function Boundary Tracing (FBT),可以通过它们探测特...
2019-12-24 17:33:27
316
原创 solaris dtrace系列二:dtrace应用基础案例-找出应用系统性能瓶颈&内部数据
这次我们修改模拟服务器守护进程的mydtrace.c源码,给原有的函数增加一些参数,算法上做一些字符串拼接和加法操作并打印出参数和返回值,然后利用sleep模拟系统瓶颈,a_1函数sleep(2)停顿2秒,b_1函数sleep(3)停顿3秒,最后我们编写跟踪探测脚本mydtrace.sh收集系统运行数据,分析瓶颈所在。1. 修改mydtrace.c源码,增加参数,增加字符串拼接和加法操作并打印...
2019-12-24 16:54:37
241
原创 solaris dtrace系列一:系统分析调试工具dtrace简介
DTrace(全称Dynamic Tracing),也称为动态跟踪,是由 Sun™ 开发的一个用来在生产和试验性生产系统上找出系统瓶颈的工具,可以对内核(kernel)和用户应用程序(user application)进行动态跟踪并且对系统运行不构成任何危险的技术。在任何情况下它都不是一个调试工具, 而是一个实时系统分析寻找出性能及其他问题的工具。 DTrace 是个特别好的分析工具,带有大量的帮...
2019-12-24 16:27:39
662
原创 oracle listener为何要fork两次子进程产生serverprocess?
@TOtttC相关主题1:http://blog.itpub.net/25462274/viewspace-2148915/2:http://www.itpub.net/thread-1799332-2-1.html,这里面有我的观点,本文主要是把以前模拟日记分享出来本次模拟说明c代码非常简单,主要就是fork,execv,wait,exit及输出一些标识,有简单的c知识都能看懂lis...
2019-12-24 14:32:40
294
原创 安家了!
今天正式在csdn安家,好多年了,一直在用ediary做日记,中间换工作&存储设备,丢过几次,以后逐渐会把以前的日记,后续的学习&实践通过csdn分享出来!最后,吐槽下阿里的云栖社区,用户友好度做的太差了,果断放弃!...
2019-12-24 14:06:28
169
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人