redis集群
一、redis集群介绍
1、简介
●Redis集群是一个提供在多个Redis间节点间共享数据的程序集
●Redis集群并不支持处理多个keys的命令,因为这需要在不同的节点间移动数据,从而达不到像Redis那样的性能,在高负载的情况下可能会导致不可预料的错误
●Redis集群通过分区来提供一定程度的可用性,在实际环境中当某个节点宕机或者不可达的情况下可继续处理命令
2、Redis集群的优势
●自动分割数据到不同的节点上
●整个集群的部分节点失败戟者不可达的情况下能够继续处理命令
3、Redis集群的实现方法
●有客户端分片
●代理分片
●服务器端分片
二、Redis三种群集模式
1、Redis主从复制模式
主从复制是高可用Redis的基础,哨兵和集群都是在主从复制基础上实现高可用的。主从复制主要实现了数据的多机备份,以及对于读操作的负载均衡和简单的故障恢复。
缺点:故障恢复无法自动化:写操作无法负载均衡:存储能力受到单机的限制。
2、哨兵
在主从复制的基础上,哨兵实现了自动化的故障恢复。
缺点:写操作无法负载均衡:存储能力受到单机.的限制。
3、集群
通过集群,Redis解决了写操作无法负载均衡,以及存储能力受到单机限制的问题,实现了较为完善的高可用方案。
三、Redis集群
redis3.0版本之前仅支持单例模式,在3.0版本及以后才支持集群redis集群采用P2P模式,是完全去中心化/无中心化的,不存在中心节点或者代理节点。
为了实现集群的高可用,即判新节点能否正常使用,redis-cluster有一个投票容错机制;如果集群中超过半数的节点投票认为某个节点挂了,那么这个节点就挂了(fail)。这是判断节点是否挂了的方法:
判断集群是否正常:
如果集群中任意一个节点挂了,而且该节点没有从节点(备份节点),那么这整个集群就挂了。这是判断集群是否挂了的方法
中心化集群和非中心化集群的区别:
1、中心化集群
群集区分主-次关系(区分中心和普通服务器)单点故障由mha缓解(ha不仅仅包含了冗余备份,还有高性能)
2、无中心化/去中心化集群
多台相同的服务器组成集群后,服务器之间不存在主-次关系,即中心服务器和普通服务器关系
去中心化集群,典型的特点是数据共享(每个服务器都会同步对方的数据),挂掉一个不会有太大的影响(非高并发情况下)方便横向扩容(增加服务器),可以说没有特别典型的单点故障,同时去中心化实现ha(高性能)方式是分布式来实现的
有状态和无状态的概念:
无状态:加入集群之后集群认为是普通节点,没有明确的角色定位
有状态:加入集群之后有定位要求(主或从角色),有明确的角色定位
单个节点挂掉整个集群就挂掉的原因:
因为集群(cluster)内置16384个slot (哈希槽)存储位,并且把所有的redis物理节点映射到了这16384[0-16383]个slot上,或者说把这些slot均等的分配给了各个redis节点(集群模式)。
当需要在Redis集群存放一个数据(key-value)时,redis会先对这个key进行crc16算法,然后得到一个结果再把这个结果对16384进行求余,这个余数会对应[0-16383]其中一个槽,进而决定key-value存储到哪个节点中。所以一旦某个节点挂了,该节点对应的slot就无法使用,那么就会导致集群无法正常工作。
示例:
节点A覆盖0-5460;
节点B覆盖5461-10922
节点c覆盖10923-16383
即:每个节点有5461个哈希槽
新增一个节点
节占A覆盖1365-5460
节占B覆盖6827-10922
节点c覆盖12288-16383
节点D覆盖0-1364,5461-6826,10923-12287
即:每个节点有4095个哈希槽
四、Redis主从复制
由于数据是存储在一台服务器上的,如果这台服务器出现硬盘故障等问题,也会导致数据丢失。为了避免单点故障,通常的做法是将数据库复制多个副本以部署在不同的服务器上,这样即使有一台服务器出现故障,其他服务器依然可以继续提供服务,所以,redis提供了复制(replication)功能,可以实现当一台数据库中的数据更新后,自动将更新的数据同步到其他数据库上。
在复制的概念当中,数据库分为两类,一类是主数据库(master),另一类是从数据(slave)。主数据可以进行读写操作,当写操做导致数据变化时自动把数据同步给从数据库,而从数据库一般是只读的,并接收主数据同步过来的数据。一个主数据库可以拥有多个从数据库,而一个从数据库只能拥有一个主数据库。
4.1主从复制流程
①若启动一个Slave机器进程,则它会向Master机器发送一个"sync command"命令,请求同步连接。
②无论是第一次连接还是重新连接,Master机器都会启动一个后台进程,将数据快照(RDB)保存到数据文件中(执行rdb操作),同时Master还会记录修改数据的所有命令并缓存在数据文件中。
③后台进程完成缓存操作之后,Master机器就会向slave机器发送数据文件,Slave端机器将数据文件保存到硬盘上,然后将其加载到内存中,接着Master机器就会将修改数据的所有操作一并发送给slave端机器。若Slave出现故障导致宕机,则恢复正常后会自动重新连接。
④Master机器收到slave端机器的连接后,将其完整的数据文件发送给Slave端,如果Mater同时收到多个slave发来的同步请求则Master会在后台启动一个进程以保存数据文件,然后将其发送给所有的slave端服务器器,确保所有的slave端服务器都正常。
五、哨兵模式
哨兵模式集群架构:
哨兵是Redis集群架构中非常重要的一个组件,哨兵的出现主要是解决了主从复制出现故障时需要人为干预的问题。
哨兵模式主要功能
①集群监控:负责监控Redis master 和 slave进程是否正常工作。
②消息通知:如界某个Redis实例有故障,那么哨兵负责发送消息作为告警通知给管理员。
③故障转移:如果master node (master角色)挂掉了,就会自动转移到slave node上。
④配置中心:如果故障转移发生了,通知客户端新的master地址。
使用一个或者多个哨兵(Sentinel)实例组成的监控管理系统,对redis节点进行监控在主节点出现故障的情况下,能将从节点角色中升级为主节点,进行故障转移,保证系统的可用性。
哨兵模式监控整个节点的过程:
哨兵的工作原理
①哨兵之间相互进行命令连接目的为了在同一频道进行信息共享和监控。
②哨兵们向master发送命令连接和订阅连接(周期性)。
③哨兵们10/s向master发送info信息,master会回应哨兵本节点的信息状态和从节点的位置。
④哨兵收到回复之后,知道从节点的位置。
⑤然后再向slaves发送命令连接和订阅连接(周期性),以达到监控整个集群的目的。
哨兵模式下的故障迁移
主观下线:
哨兵(Sentinel)节点会每秒一次的频率向建立.了命令连接的实例发送PTNG命令,如果在down-after-milliseconds毫秒内没有做出有效响应包括(PONG/LOADLNG/NASTERDOwN)以外的响应,哨兵就会将该实例在本结构体中的状态标记为SRI_8_DONIN主观下线
客观下线:
当一个哨兵节点发现主节点处于主观下线状态是,会向其他的哨兵节点发出询问,该节点是不是已经主观下线了。如果超过配置参数quorum个节点认为是主观下线时,该哨兵节点就会将自己维护的结构体中该主节点标记为SRTO
DowN客观下线询问命令3ENTINEL is-master-down-by-addr
master选举:
在认为主节点客观下线的情况下,哨兵节点节点间会发起一次选举,命令为:SENTTNFT, is-master-down-by-addr,,只是runid这次会将自己的runid带进去,希望接受者将自己设置为主节点。如果超过半数以上的节点返回将该节点标记为leacer的情况下,会有该leader对故障进行迁移
服务器列表中挑选备选master原则:
选在线的
排除反应慢的,与原master断开时间久的
优先原则:
优先级
offset
runid
故障转移:
#在从节点中挑选出新的主节点
通讯正常
优先级排序
优先级相同时选择offset最大的(最接近master的)
#将该节点设置成新的主节点SLAVEOF no one,并确保在后续的INGO命令时该节点返回状态为master
#将其他的从节点设置成从新的主节点的从节点,SLAVEOF命令
#将旧的主节点变成新的主节点的从节点
mysql mha
原master 修复完成加入集群的时候,会以slave节点的身份加入
PS:优缺点
#优点:
高可用,哨兵模式是基于主从模式的,所有主从模式的优点,哨兵模式可以简单的检测和故障自动切换,系统更健壮,可用性更高
#缺点:
redis比较难支持在线扩容,在群集容量达到上限时在线扩容会变得很复杂
六、Cluster集群模式
redis的哨兵模式基本已经可以实现高可用、读写分离,但是在这种模式每台redis服务器都存储相同的数据,很浪费内存资源,所以在redis3.0上加入了cluster群集模式,实现了redis的分布式存储,也就是说每台redis节点存储着不同的内容根据官方推荐,集群部署至少要3台以上的master节点,最好使用3主3从六个节点的模式。
Cluster群集由多个redis服务器组成的分布式网络服务群集,群集之中有多个master主节点,每一个主节点都可读可写,节点之间会相互通信,两两相连,redis群集无中心节点
在redis-Cluster群集中,可以给每个一个主节点添加从节点,主节点和从节点直接尊循主从模型的特性,当用户需要处理更多读请求的时候,添加从节点可以扩展系统的读性能
redis-Cluster的故障转移:redis群集的主机节点内置了类似redissentinel的节点故障检测和自动故障转移功能,当群集中的某个主节点下线时,群集中的其他在线主节点会注意到这一点,并且对已经下线的主节点进行故障转移
集群进行故障转移的方法和redis sentinel进行故障转移的方法基本一样(投票方式),不同的是,在集群里面,故障转移是由集群中其他在线的主节点负责进行的,所以群集不必另外使用redis sentinel
集群master的数量:奇数。原因:投票机制,挂掉的mater也会有投票。相当于遗书。
七、搭建主从复制
环境:
192.168.153.200 主
192.168.153.215 从1
192.168.153.220 从2
主服务器:
vim /etc/redis/6379.conf
bind 0.0.0.0 #第70行,监听所有
daemonize yes #第137行开启守护进程
logfile /var/log/redis_6379.log #第172行指定日志文件目录
dir /var/lib/redis/6379 #第264行指定工作目录
appendonly yes #第700行开启aof持久化功能
/etc/init.d/redis_6379 restart #重启服务
从服务器:
vim /etc/redis/6379.conf
bind 0.0.0.0 #第70行,监听所有
daemonize yes #第137行,开启守护进程
logfile /var/log/redis_6379.log #第172行指定日志文件目录
dir /var/lib/redis/6379 #第264行指定工作目录
replicaof 192.168.153.200 6379 #第288行指定主服务器的ip和端口
appendonly yes #第700行开启aof持久化功能
/etc/init.d/redis_6379 restart #重启服务
验证主从效果:主服务器
cat /var/log/redis_6379.log 查看日志
[root@master ~]# redis-cli info replication
# Replication
role:master
connected_slaves:2
slave0:ip=192.168.153.215,port=6379,state=online,offset=564,lag=1
slave1:ip=192.168.153.220,port=6379,state=online,offset=564,lag=1
#master启动时生成的40位16进制的随机字符串,用来标识master节点
master_replid:ff20857ba7bbb81b6f36c54427a7ce4b8e60c4bd
#切换主王从的时候master节点标识会有更改(暂时是0)
master_replid2:0000000000000000000000000000000000000000
#复制流中的一个偏移量,master处理完写入命令后,会把命令的字节长度做累加记录,统计在该字段。该字段也是实现部分复制的关键字段。
master_repl_offset:994
#无论主从,都表示自己上次主实例repid1和复制偏移量;用于兄弟实例或级联复制,主库故障切换psync
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1
repl_backlog_histlen:564
报错排查:
WARNING: The TCP backlog setting of 511 cannot be enforced because /proc/sys/net/core/somaxconn is setto the lower value of 128
当前每一个端口最大的监听队列的长度不满足这个高负载环境,需要调整
解决办法
echo 2048 > /proc/sys/net/core/somaxconn
WARNING overcommit memory is set to 0! Background save may fail under low memory condition
内存超额警告,当前内存设置为0会导致后台保存失败
解决办法:
echo "vm.overcommit_memory=1" > letc/sysctl.conf
#刷新配置文件保其生效
sysctl vm.overcommit_memory=1
MARNING you have Transparent Huge Pages (THP) support enabled in your kernel. This will create latencyand memory usage issues with Redis
内核中启用了透明大页面(THP)支持会将导致Redis的延迟和内存使用问题
解决:
echo never > /sys/kernel/mm/transparent_hugepage/enabled
Error condition on socket for SYNC: Connection reset by peer
连接被拒绝,因为主服务器可能绑定了自身IP地址
解决办法
主节点配置文件bind 0.0.0.0
八、搭建哨兵
环境:
192.168.153.200 主
192.168.153.215 从1
192.168.153.220 从2
vim /opt/redis-5.0.7/sentinel.conf 三台机器
protected-mode no #17行,关闭保护模式
port 26379 #21行,Redis哨兵默认的监听端口
daemonize yes #26行开启守护进程
logfile "/var/log/sentinel.log" #36行,指定日志存放路径
dir " /var/lib/redis/6379" #65行,指定数据库存放路径
#84行,指定哨兵节点
#2表示,至少需要2个哨兵节点同意,才能判定主节点故障并进行故障转移sentinel monitor mymaster 192.168.153.200 6379 2
sentinel down-after-milliseconds mymaster 3000 #113行,判定服务器down掉的时间周期,默认30000毫秒(30秒)
sentinel failover-timeout mymaster 180000 #146行,故障节点的最大超时时间为180000 (180秒)
启动哨兵模式,,先启动主节点再启动从节点
cd /opt/redis-5.0.9/
redis-sentinel sentinel.conf &
查看哨兵信息
redis-cli -p 26379 info sentinel
模拟故障:
netstat -antp | grep redis ##查看redis-server的进程号
kill -9 65876 #杀死Master节点上的redisserver进程号
[ root@master redis-5.0.7]#redis-cli -p 26379 info sentinel
#sentinel
sentinel_masters : 1sentinel_tilt : o
sentinel_running_scripts : o
sentinel_scripts_queue_length : 0sentinel_simulate_failure_flags : o
master0 :name=mymaster,status-odown , address=192.168.153.200:6379,slaves=2, sentinels-3
Ps : status=odown :
o即objectively ,客观
status=sdown s:主观
查看master哨兵日志验证结果:
tail -f /var/ log/ sentinel.log
redis-cli -p 26379 info Sentinel