henry.zhu-CSDN博客

原创 PostgreSQL源码系列三：PGPool-II BUG? down节点在线恢复问题

细节决定成败

2021-11-11 17:52:40 4038 2

转载转载：Apache Doris、DorisDB傻傻分不清……

大家擦亮眼睛，摘录一部分："比如 DorisDB 的商标问题，从品牌角度来说，开源项目与商业化产品的品牌必须存在区分度，比如 Linux 和 RedHat 、 Hadoop 与 Cloudera 、Apache Kylin 和 Kyligence 。DorisDB 和 Apache Doris ，相信很多开源用户在初次接触 Doris 的时候都会迷惑这两个产品的区别是什么，甚至以为是同一个产品。这也是 DorisDB 的目的所在，品牌上的混淆可以带来用户流量，这就够了。而 Apache 基金会对此事件有过多

2021-10-13 18:27:00 2432 3

原创 PostgreSQL源码系列二：Postgres-XL调试基础&GDB Debug范例

一. 前言接上一篇，上篇的pg_hba的配置还是有点问题的，本篇将通过Debug来解析问题根源。二. 问题由于postgres是超级管理账户，实际使用中不可能开放给普通用户，我们模拟下生产环境，新建库和用户。[postgres@k8s03 ~]$ psql -hk8s01 -Upostgres -p5433psql (PGXL 10r1, based on PG 10.5 (Postgres-XL 10r1))Type “help” for help.postgres=# revoke all

2021-10-11 16:58:43 1324

原创 PostgreSQL源码系列一：Postgres-XL编译&安装&配置

一. 前言PostgreSQL使用比较广泛，但Postgres-XL相对少很多，网络上的很多文章都是学习&实验性质，仅从对pg_hba.conf的配置来看，大多一笔带过，不适合生产部署；官网的Tutorial（https://www.postgres-xl.org/documentation/index.html）写的太敷衍，实用性非常差！为了方便熟悉Postgres-XL的原理，本文参考官网文档，使用最原始的方法安装（建议使用官方推荐的pgxc_ctl工具，更方便快捷）二.系统架构三.编译

2021-10-09 15:10:54 891

原创 Oracle GoldenGate：DML过滤&官方文档的BUG

有些特殊的DML过滤需求，比如：仅仅同步update&delete数据，不同步insert，由于算比较罕见的用法，网络上的详细资料比较少，官方的文档又有些问题，花些精力详细研究了下相关资料&做了些测试，供对此功能有需求或疑问的朋友做参考！一.需求某表只需要同步update,delete记录，insert记录不同步。二.官方文档11g和12c官方文档的描述差异并不大：Oracle® GoldenGate Windows and UNIX Reference Guide 11g Rel

2021-09-16 20:18:43 336

原创 MySQL HA方案:MMM,MHA,Orchestrator,MGR

一.前言MySQL常用的HA方案：MMM,MHA；前者已经很多年没有更新版本了，不推荐使用，MHA也有多年未更新了,5.7及以上版本也不推荐使用，一些新特性要么不支持，要么会触发BUG；综合看Orchestrator相对来说算是目前比较好的解决方案。二.简介Orchestrator是使用go语言编写的MySQL高可用性和复制拓扑管理工具，支持复制拓扑结构的调整，自动故障转移和手动主从切换等。后端数据库用MySQL或SQLite存储元数据，并提供Web界面展示MySQL复制的拓扑关系及状态，通过Web可

2021-07-19 19:36:56 2149

原创云计算虚拟化：k8s进阶-CRD项目部署

一. 前言

2021-01-03 16:54:49 3074 3

原创云计算虚拟化：k8s进阶-CRD项目示例

一.前言

2021-01-02 20:32:53 2654 1

原创云计算虚拟化：k8s进阶-CRD开发基础

一. 前言CRD:Custom Resources Definition,即在Kubernetes 中添加一个和 Pod、service 类似的、新的 API 资源类型，用于统一部署/编排多个内置K8S资源（pod,service等）。为什么需要CRD?helm也可以做到统一部署/编排deployment,service,ingress，但它缺乏对资源的全生命周期的监控，CRD通过apiserver接口，在etcd中注册一种新的资源类型，此后就可以创建对应的资源对象&并监控它们的状态&

2021-01-01 19:58:48 6173

原创云计算虚拟化：k8s认证流程&用户&用户组&权限相关

一. 前言Kubernetes集群有两类用户：由Kubernetes管理的Service Accounts （服务账户）和（Users Accounts）普通账户/用户；前者由Kubernetes进行管理主要用于pod；后者由外部应用进行管理，主要是人在安全方面，Kubernetes通过一系列机制来实现集群的安全控制，其中包括API Server的认证授权、准入控制机制及保护敏感信息的Secret机制等，Kubernetes集群中所有资源的访问和变更都是通过Kubernetes API Server

2020-09-28 17:25:02 1788

原创云计算虚拟化：k8s二进制Master主备集群部署

一.前言无论从成本还是效率上考虑，k8s都极占优势，基本代表了未来趋势，官网推荐kubeadm配置，虽然方便，但掩盖了许多细节问题；k8s虽然咋看仅仅是个容器编排工具，但涉及的相关知识面非常广泛，如果说大数据的相关知识你需要花N天，K8S相关知识基本不会少于2N，如果要深入了解，非一日之功，从二进制部署起步，来日方长，本文是学习笔记的整理，仅作参考。二.系统架构k8s版本：1.18.6三.部署1.preinstall check all nodes1.1 swapoff1.2 disable

2020-09-11 10:35:13 1394

原创大数据系列八：Flink实时流计算-时间窗口（Kafka to MySQL）

一.前言二.概念三.程序四.运行

2020-06-26 19:47:33 1289

原创大数据系列七：Storm实时流计算-滑动窗口（Kafka to File）

一.前言Storm安装配置没有使用Hadoop，比较简单，网络相关介绍比较多，大概列下。二.安装配置2.1 tar -zxvf apache-storm-1.0.5.tar.gz2.2 vi /etc/profileSTORM_HOME=/mnt/data/software/stormPATH=PATH:PATH:PATH:STORM_HOME/bin2.3 vi storm.yamlstorm.zookeeper.servers:- “ipsnode1”- “ipsnode2”- “

2020-06-26 18:58:37 623

原创大数据系列六：Spark实时流计算-滑动窗口(sliding window)

一.前言为什么会有流计算？因为有流^_^为什么会有流？这个原因比较复杂，部分是因为RDBMS解决不了，部分是为了解耦，部分是因为数据价值密度太低…，部分是因为架构^_^二.概念窗口：指定了时间长度和延时长度的时间段（长度也就是时间），比如：长度是5分钟，并且允许有1分钟的延迟。窗口的创建时间：第一个元素到达就创建。窗口的销毁时间：在窗口时间长度+延时长度到时。每个窗口都会绑定一个触发器和一个执行函数，触发器定义了何时会触发窗口的执行函数的计算，比如水位经过了窗口结束时间的时候窗口产生的目

2020-06-26 17:27:03 1768

原创大数据系列五：Hive

一.前言Hive是建立在Hadoop之上的数据仓库，由Facebook开发，现在是apache顶级开源项目；它依赖于HDFS存储数据，依赖MR处理数据；不完全支持SQL标准，其事务支持，索引，子查询和连接操作也存在很多限制，新版本已经支持update,但效率不高；Hive主要由三个模块：1.用户接口模块，含CLI、HWI、JDBC、Thrift Server 。2.驱动模块(Driver)，含编译器、优化器、执行器等。3.元数据存储模块(Metastore)，是一个独立的关系型数据库，通常与M

2020-06-26 16:24:55 2468

原创大数据系列四：HBase

一.前言HBASE是KEYVALUE存储，面向列的多版本映射分布式数据库。HBASE架构简图如下：不多介绍，对于非结构化数据，现在有很多解决方案，HBASE除非历史遗留，一般不会是最适合的那个，适当了解即可。二.安装配置1.zookeeper1.1 vi /etc/profile in all zk nodes#########################export ZOOKEEPER_HOME=/usr/local/zookeeper-3.6.0/export PATH=$PAT

2020-06-25 18:06:44 243

原创大数据系列三：Hadoop HA+Federation(联邦)

一.前言为什么需要Federation(联邦)？HA虽然提供了两个名称节点，解决了单点故障问题，但某时刻只有一个是活动状态，并没有解决可扩展性，系统性能，隔离性问题。Federation(联邦)设计了多个相互独立的名称节点，使命名服务能水平扩展，这些节点分别进行各自命名空间和块管理，相互之间是联邦关系，不需要相互协调，降低了复杂性。Federation(联邦)的核心可以说是viewfs,这个技术像什么呢！通俗点讲，和nfs挂载有点类似，如下图hdfs提供了统一的挂载点app&doc，其背后对

2020-06-25 17:46:58 934

原创大数据系列二：Hadoop HA

一.前言Hadoop HA主要解决HDFS NameCode&YARN ResourceManager单点故障问题，通过引入备用资源，在主资源发生故障时通过zk切换到备用资源。二.配置2.1 HDFS HA注意：主备切换主要依赖两项配置:1.能相互免密登录2.dfs.ha.fencing.methods2.1.1 vi hadoop-env.sh##################added for HDFS haexport HDFS_JOURNALNODE_USER=root

2020-06-25 16:59:31 545

原创大数据系列一：Hadoop安装&配置&基本测试

一.前言趁这几天放假，把以前大数据学习笔记梳理下，复习&整合下知识点，包含hadoop系列,流计算框架，ELK Stack等；大数据的笔记相对完整些，开源词法&语法分析工具ANTLR4本来想分享一个系列，无奈笔记太零散了，代码又比较多，实在没精力整合；希望这个系列能完成。二.基础配置2.1.OS准备3台centos/rhel7服务器，虚机/实体机都可以，OS默认安装即可。IP&HOSTNAME:192.168.100.101 ipsnode1192.168.100.102

2020-06-25 12:07:46 709

原创 Oracle数据迁移至ClickHouse（二）：flume

一．前言最近研究flume时发现，网络上的资料多少都有些问题，针对clickhouse引用最多的flume sink是：https://reviews.apache.org/r/50692/diff/1#2，这个源码的pom.xml是存在问题的，根本无法编译；其次clickhouse官网的jdbc驱动效率不高，鉴于此，我利用官网推荐的第三方jdbc重新写了一版flume sink，相关过程见下文。二.数据库环境准备oracle:create table tdba_test( TID

2020-06-22 11:25:12 2183 1

原创 Oracle数据迁移至ClickHouse（一）：datax

一．前言ClickHouse是andex在2016年6月15日开源了一个数据分析的数据库，国内一些大厂也在使用：今日头条内部用ClickHouse来做用户行为分析，内部一共几千个ClickHouse节点，单集群最大1200节点，总数据量几十PB，日增原始数据300TB左右，大多数查询相应时间在几秒钟。腾讯内部用ClickHouse做游戏数据分析，并且为之建立了一整套监控运维体系。携程内部...

2020-04-10 10:56:58 9000 6

原创开源词法&语法分析工具系列一：ANTLR4入门

前言为什么要研究这个工具？最初是为了做sql审核，本来想找一款开源的sql审核软件，无奈国内某著名电商开源的一款产品居然闭源了，另外一款产品只有部分开源，核心代码也是闭源；不得已，只有自己动手丰衣足食了，刚开始研究了python的sqlparse库，但它不能保证解析的正确性，只能放弃；后来转向阿里的开源连接池druid,想利用它的sql解析功能，研究了几天，也许是文档不全的原因，也许是我jav...

2019-12-24 19:26:17 3644

原创修改Zabbix Percona监控插件模板&自定义监控项目

Zabbix自带的MySQL监控功能有限，所以很少采用，业界一般使用Percona Monitoring Plugins 监控 MySQLPercona 为 MySQL 数据库服务器进行了改进，在功能和性能上较 MySQL 有着很显著的提升。该版本提升了在高负载情况下的 InnoDB 的性能、为 DBA 提供一些非常有用的性能诊断工具；另外有更多的参数和命令来控制服务器行为。具体安装配置参见：...

2019-12-24 19:01:20 328

原创 Oracle绑定变量分级-实测

在oracle 中，对于一个提交的sql语句,存在两种可选的解析过程, 一种叫做硬解析,一种叫做软解析.一个硬解析需要经解析,制定执行路径,优化访问计划等许多的步骤.硬解释不仅仅耗费大量的cpu，更重要的是会占据重要的们闩（latch）资源，严重的影响系统的规模的扩大（即限制了系统的并发行），而且引起的问题不能通过增加内存条和cpu的数量来解决。这是因为门闩是为了顺序访问以及修改一些内存区域而...

2019-12-24 18:47:55 462

原创 Linux系统分析调试工具systemtap

Linux有一个和solaris的dtrace类似的工具systemtap，同样很强大，本文主要介绍此工具，最后用这个工具编写脚本，做一下应用瓶颈分析。一．简介SystemTap是一个诊断Linux系统性能或功能问题的开源软件。它使得对运行时的Linux系统进行诊断调式变得更容易、更简单。有了它，开发者或调试人员不再需要重编译、安装新内核、重启动等烦人的步骤。为了诊断系统问题或性能，开发者或...

2019-12-24 18:25:42 808

原创 solaris dtrace系列三：dtrace应用进阶-在应用中添加自定义的探测器

上面两篇讲解了dtrace的基本概念，这次来看下dtrace的进阶应用，在源码中添加自定义的探测器一：为什么需要自定义探测器？Solaris（包括 OpenSolaris）、FreeBSD 和 Mac OS X都支持使用标准的 DTrace 探测。这包括在代码中不同函数边界由操作系统实现的那些探测。这些探测称为 Function Boundary Tracing (FBT)，可以通过它们探测特...

2019-12-24 17:33:27 316

原创 solaris dtrace系列二：dtrace应用基础案例-找出应用系统性能瓶颈&内部数据

这次我们修改模拟服务器守护进程的mydtrace.c源码，给原有的函数增加一些参数，算法上做一些字符串拼接和加法操作并打印出参数和返回值，然后利用sleep模拟系统瓶颈，a_1函数sleep(2)停顿2秒，b_1函数sleep(3)停顿3秒，最后我们编写跟踪探测脚本mydtrace.sh收集系统运行数据，分析瓶颈所在。1. 修改mydtrace.c源码，增加参数，增加字符串拼接和加法操作并打印...

2019-12-24 16:54:37 241

原创 solaris dtrace系列一：系统分析调试工具dtrace简介

DTrace（全称Dynamic Tracing)，也称为动态跟踪，是由 Sun™ 开发的一个用来在生产和试验性生产系统上找出系统瓶颈的工具，可以对内核(kernel)和用户应用程序(user application)进行动态跟踪并且对系统运行不构成任何危险的技术。在任何情况下它都不是一个调试工具，而是一个实时系统分析寻找出性能及其他问题的工具。 DTrace 是个特别好的分析工具，带有大量的帮...

2019-12-24 16:27:39 662

原创 oracle listener为何要fork两次子进程产生serverprocess?

@TOtttC相关主题1：http://blog.itpub.net/25462274/viewspace-2148915/2：http://www.itpub.net/thread-1799332-2-1.html，这里面有我的观点，本文主要是把以前模拟日记分享出来本次模拟说明c代码非常简单，主要就是fork,execv,wait,exit及输出一些标识，有简单的c知识都能看懂lis...

2019-12-24 14:32:40 294

原创安家了！

今天正式在csdn安家，好多年了，一直在用ediary做日记，中间换工作&存储设备，丢过几次，以后逐渐会把以前的日记，后续的学习&实践通过csdn分享出来！最后，吐槽下阿里的云栖社区，用户友好度做的太差了，果断放弃！...

2019-12-24 14:06:28 169

dustzhu的博客