Keepalived高可用服务解决方案

时间:2022-09-30 08:57:36 作者:快盘下载人气:

[TOC]

文章目录

(1) Keepalive 高可用解决方案

0x00 快速入门

答：高可用集群（High Availability Cluster，简称HA Cluster），是指以减少服务中断时间为目的的服务器集群技术。它通过保护用户的业务程序对外不间断提供的服务，把因软件、硬件、人为造成的故障对业务的影响降低到最小程度。(简单说就是：保证服务不间断地运行)

系统故障分类：

硬件故障：设计缺陷、wearout（损耗）、自然灾害、不可抗力等等软件故障：设计缺陷

集群类型：

LB : LVS / nginx (http/upstream,stream / upstrem)HA 高可用性 SPoF : SinglePointofFailure,高可用的是“服务”并且资源组成一个高可用服务的“组件”(vip/nginx process shared storage)HPC 高性能计算（High Performance Computing）

1）高可用集群的衡量标准要保证集群服务100%时间永远完全可用，几乎可以说是一件不可能完成的任务,通常用平均无故障时间(MTTF)来度量系统的可靠性,用平均故障维修时间（MTTR）来度量系统的可维护性。MTBF代表着平均故障间隔时间（Mean Time Between Failures）它也与MTTR有相关关系;

可用性被定义为：HA = MTTF/(MTTF+MTTR)*100%。系统可用性的公式：HA = MTBF/(MTBF+MTTR)(0,1), 95%几个9（指标）:99%,…,99.999%，99.9999%

具体HA衡量标准:

Keepalived高可用服务解决方案

WeiyiGeek.衡量标准

补充：提升系统高用性的解决方案之降低MTTR手段就是冗余redundant

2）高可用集群实现原理高可用集群主要实现自动侦测(Auto-Detect)故障、自动切换/故障转移(FailOver)和自动恢复(FailBack)。简单来说就是用高可用集群软件实现故障检查和故障转移（故障/备份主机切换）的自动化，当然像负载均衡、DNS分发也可提供高可性。

自动侦测(Auto-Detect)/ 故障检查自动侦测阶段由主机上的软件通过冗余侦测线，经由复杂的监听程序逻辑判断，来相互侦测对方运行的情况。常用的方法是：集群各节点间通过心跳信息判断节点是否出现故障。自动切换/故障转移（FailOver）自动切换阶段某一主机如果确认对方故障，则正常主机除继续进行原来的任务，还将依据各种容错备援模式接管预先设定的备援作业程序，并进行后续的程序及服务。通俗地说，即当A无法为客户服务时，系统能够自动地切换，使B能够及时地顶上继续为客户提供服务，且客户感觉不到这个为他提供服务的对象已经更换。自动恢复/故障回转(FailBack) 自动恢复阶段在正常主机代替故障主机工作后，故障主机可离线进行修复工作。在故障主机修复后，透过冗余通讯线与原正常主机连线，自动切换回修复完成的主机上。

其他关注点答：如果集群没有对其进行Fecning/Stonith隔离前，可以进行相关配置（without_quorum_policy），有如下配置选项：

1、stop：直接停止服务；
2、ignore：忽略，以前运行什么服务现在还运行什么（双节点集群需要配置该选项）；
3、Freeze：冻结，保持事先建立的连接，但不再接收新的请求；
4、suicide：kill掉服务。

脑裂：是因为集群分裂导致的，集群中有节点因为处理器忙或者其他原因暂时停止响应时，与其他节点间的心跳出现故障，但这些节点还处于active状态，其他节点可能误认为该节点”已死”，从而争夺共享资源（如共享存储）的访问权，分裂为两部分独立节点。

脑裂后果：这时两个节点开始争抢共享资源，结果会导致系统混乱，数据损坏。脑裂解决：上面3-1-1、3-1-2的方法也能一定程度上解决脑裂的问题，但完全解决还需要资源隔离（Fencing）。

资源隔离（Fencing）：当不能确定某个节点的状态时，通过fencing把对方干掉，确保共享资源被完全释放，前提是必须要有可靠的fence设备。节点级别：STONITH（shoot the other node in the head，爆头硬件方式），直接控制故障节点的电源，绝对彻底。资源级别：例如：FC SAN switch（软件方式）可以实现在存储资源级别拒绝某节点的访问

3) 高可用集群工作模型

Active/Passive：主备模型; 一个活动主节点，另一个不活动作为备用节点，当主节点故障，转移到备节点，这时备节点就成为了主节点。备节点完全冗余，造成一定浪费Active/Active：双主模型; 两个节点都是活动的，两个节点运行两个不同的服务，也互为备用节点。也可以提供同一个服务，比如ipvs，前端基于DNS轮询。这种模型可以使用比较均衡的主机配置，不会造成浪费。N+1: N个活动主节点N个服务，一个备用节点,需要额外的备用节点必须能够代替任何主节点，当任何主节点故障时，备节点能够负责它的角色对外提供相应的服务N+M : N个活动主节点，M个备用节点。像上面的N+1模型，一个备用节点可能无法提供足够的备用冗余能力，备用节点的数量M是成本和可靠性要求之间的折衷。（其他说法N-M: N个节点M个服务， N>M，活动节点为N，备用节点为N-M。）N-to-1 ：与N+1一样,也是N个活动主节点，一个备用节点；不同是的备用节点成为主节点只是暂时的，当原来故障的节点修复后，必须回转才能正常工作N-to-N : N个主节点N个备用节点。这是A/A双主和N + M模型的组合，N节点都有服务，如果一个坏了，剩下的每个节点都可以作为替代提供服务

4）高可用集群架构层次这一层主要是正在运行在物理主机上的服务，高可用集群相关的软件运行在各主机上，集群资源也是在各主机上。

Messaging(消息) and Membership Layer(成员关系)信息传递层，传递集群信息的一种机制，通过监听UDP 694号端口，可通过单播、组播、广播的方式，实时快速传递信息，传递的内容为高可用集群的集群事务，例如：心跳信息，资源事务信息等等，只负责传递信息，不负责信息的计算和比较。成员关系（Membership）层，这层最重要的作用是主节点（DC）通过Cluster Consensus Menbership Service（CCM或者CCS）这种服务由Messaging层提供的信息，来产生一个完整的成员关系。这层主要实现承上启下的作用，承上将下层产生的信息生产成员关系图传递给上层以通知各个节点的工作状态；启下将上层对于隔离某一设备予以具体实施。 Messaging Layer 集群信息层软件： heartbeat (v1, v2) 、heartbeat V3 (可以拆分为：heartbeat, pacemaker, cluster-glue) , corosync 从OpenAIS分离的项目、cman 、keepalived (一般用于两个节点的集群)、ultramokey

CRM（Cluster Resource Manager）

群资源管理器层，它主要是用来提供那些不具有高可用的服务提供高可用性的。它需要借助Messaging Layer来实现工作，因此工作在Messaging Layer上层。资源管理器的主要工作是收集messaging Layer传递的节点信息，并负责信息的计算和比较，并做出相应的动作，如服务的启动、停止和资源转移、资源的定义和资源分配;在每一个节点上都包含一个CRM，且每个CRM都维护这一个CIB（Cluster Information Base，集群信息库），只有在主节点上的CIB是可以修改的，其他节点上的CIB都是从主节点那里复制而来的。CRM会推选出一个用于计算和比较的节点，叫DC（Designated coordinator）指定协调节点，计算由PE（Policy Engine）策略引擎实现，计算出结果后的动作控制由TE（Transition Engine）事务引擎实现;在每个节点上都有一个LRM（local resource manager）本地资源管理器，是CRM的一个子功能，接收TE传递过来的事务，在节点上采取相应动作，如运行RA脚本等。CRM集群资源管理器软件:Haresource (文本配置接口被heartbeat v1 v2包含) 、heartbeat v2包含可以使用crmsh或者heartbeat-gui来进行配置、pacemaker(heartbeat v3分离出来的项目，配置接口：CLI：crm、pcs和GUI：hawk(WEB-GUI)、LCMC、pacemaker-mgmt、pcs)、rgmanager(Cman包含，使用rgmanager(resource group manager)实现管理, 具有Failover Domain故障转移域这一特性，也可以使用RHCS（Redhat Cluster Suite）套件来进行管理：Conga的全生命周期接口，Conga（luci/ricci）先安装后，可用其安装高可用软件，再进行配置。)

RA（Resource Rgent）

资源代理层，简单的说就是能够集群资源进行管理的脚本，如启动start，停止stop、重启restart和查询状态信息status等操作的脚本。LRM本地资源管理器负责运行。

资源代理分为：

1、Legacy heartbeat（heatbeat v1版本的资源管理）；
2、LSB（Linux Standard Base），主要是/etc/init.d/*目录下的脚,start/stop/restart/status；
3、OCF（Open Cluster Famework），比LSB更专业，更加通用,除了上面的四种操作，还包含monitor、validate-all等集群操作OCF 的规范在http://www.opencf.org/cgi-bin/viewcvs.cgi/specs/ra/resource-agent-api.txt?rev=HEAD。
4、STONITH：实现节点隔离

4）高可用集群架共享存储高可用集群多节点都需要访问数据，如果各节点访问同一个数据文件都是在同一个存储空间内的，就是说数据共享的就一份，而这个存储空间就共享存储。如Web或mysql高可用集群，他们的数据一般需要放在共享存储中，主节点能访问，从节点也能访问(如前面高可用文章中提到的rsync和DRBD来同步分别存储在主/从节点上的块数据)

共享存储的类型：

DAS（Direct attached storage，直接附加存储）：存储设备直接连接到主机总线上的，距离有限，而且还要重新挂载，之间有数据传输有延时；常用的存储设备：RAID 阵列、SCSI 阵列。这是设备块级别驱动上实现的共享，持有锁是在节点主机本地上的，无法通知其他节点，所以如果多节点活动模型的集群同时写入数据，会发生严重的数据崩溃错误问题，主备双节点模型的集群在分裂的时候了会出现问题；NAS（network attached storage，网络附加存储）:文件级别交互的共享，各存储设备通过文件系统向集群各节点提供共享存储服务，是用C/S框架协议来实现通信的应用层服务。常用的文件系统：NFS、FTP、CIFS等，如使用NFS实现的共享存储，各节点是通过NFS协议来向共享存储请求文件的。SAN（storage area network、存储区域网络) 块级别的将通信传输网络模拟成SCSI（Small Computer System Interface）总线来使用，节点主机（initiator）和SAN主机（target）都需要SCSI驱动，并借助网络隧道来传输SAN报文，所以接入到SAN主机的存储设备不一定需要是SCSI类型的。常用的SAN：FC光网络（交换机的光接口超贵，代价太高）、IPSAN（iscsi、存取快，块级别，廉价）。

# heartbeat v2+haresource(或crm) (说明：一般常用于CentOS 5.X)
# heartbeat v3+pacemaker (说明：一般常用于CentOS 6.X)
# corosync+pacemaker (说明：现在最常用的组合)
# cman + rgmanager (说明：红帽集群套件中的组件，还包括gfs2,clvm)
# keepalived+lvs (说明：常用于lvs的高可用)

0x02 Keepalived 介绍与组成

Keepalived是Linux下一个轻量级别的高可用解决方案;

高可用(High Avalilability,HA)，其实两种不同的含义：

广义来讲, 是指整个系统的高可用行狭义的来, 讲就是之主机的冗余和接管

答：Keepalived起初是为LVS设计的，专门用来监控集群系统中各个服务节点的状态，它根据TCP/IP参考模型的第三、第四层、第五层交换机制检测每个服务节点的状态，如果某个服务器节点出现异常，或者工作出现故障，Keepalived将检测到，并将出现的故障的服务器节点从集群系统中剔除，这些工作全部是自动完成的，不需要人工干涉，需要人工完成的只是修复出现故障的服务节点。并且通过虚拟路由器冗余协议 Virtual Router Redundancy Protocol 简称vrrp协议基础之上来实现的,它目的是解决静态路由出现的单点故障问题,通过VRRP可以实现网络不间断稳定运行;

一方面具有服务器状态检测和故障隔离功能另一方面也有 HA cluster功能Keepalived 安全认证有简单字符认证,预共享密钥MD5;

术语解释：

虚拟路由器：Virtual Router 由一个Master路由器和多个Backup路由器组成。通俗讲就是一个路由器集群。虚拟路由器标识：VRID(0-255)，唯一标识虚拟路由器物理路由器,如果多个路由器有相同的VRID，那么这些路由器就组成了一个虚拟路由器。master：主设备，虚拟路由器中真正承担报文转发的节点。backup：备用设备,虚拟路由器中某一时刻除Master路由器的其他都有节点。priority：优先级,VRRP根据每个节点的优先级确定节点在虚拟路由器中的地位。如果优先级相同则根据节点的IP地址大小进行比较。VIP：Virtual IPV:虚拟路由器的IP，VIP是用于客户接入的IP地址。MAC：Virutal MAC:虚拟路由器拥有的MAC地址(00-00-5e-00-01-VRID)抢占方式和非抢占方式：抢占方式中只要优先级最高才会成为Master路由器非抢占方式中只要Master路由器没有出现故障，则Baskup路由器的优先级再高也不会成为Master路由器。

答：Keepalived主要是通过虚拟路由冗余(VRRP)来实现高可用功能，虽然它没有HeartBeat功能强大，但是Keepalived部署和使用非常的简单，所有配置只需要一个配置文件即可以完成，

安全认证：

简单字符认证、HMAC机制，只对信息做认证
MD5（leepalived不支持）

1) VRRP协议在现实的网络环境中主机之间的通信都是通过配置静态路由或者(默认网关)来完成的，而主机之间的路由器一旦发生故障，通信就会失效，因此这种通信模式当中，路由器就成了一个单点瓶颈，为了解决这个问题引入了VRRP协议。它是一种主备模式的协议，通过VRRP可以在网络发生故障时透明的进行设备切换而不影响主机之间的数据通信;

其中涉及到两个概念：

物理路由器虚拟路由器

VRRP虚拟路由冗余,可以将两台或者多台物理路由器设备虚拟成一个虚拟路由,并且每个虚拟路由器都有一个唯一的标识号称为VRID，一个VRID与一组IP地址构成一个虚拟路由器;这个虚拟路由器通过虚拟IP（一个或者多个)对外提供服务，而在虚拟路由器内部十多个物理路由器协同工作，同一时间只有一台物理路由器对外提供服务;

物理路由设备成为：主路由器（Master角色)，一般情况下Master是由选举算法产生，它拥有对外服务的虚拟IP，提供各种网络功能，如：ARP请求，ICMP 数据转发等; 而且其它的物理路由器不拥有对外的虚拟IP，也不提供对外网络功能，仅仅接收MASTER的VRRP状态通告信息，这些路由器被统称为“BACKUP的角色”，当主路由器失败时，处于BACKUP角色的备份路由器将重新进行选举，产生一个新的主路由器进入MASTER角色，继续提供对外服务，整个切换对用户来说是完全透明的。

在VRRP协议中所有的报文都是通过IP多播方式发送的，而在一个虚拟路由器中，只有处于Master角色的路由器会一直发送VRRP数据包，处于BACKUP角色的路由器只会接受Master角色发送过来的报文信息，用来监控Master运行状态，一般不会发生BACKUP抢占的情况，除非它的优先级更高，而当MASTER不可用时，BACKUP也就无法收到Master发过来的信息，于是就认定Master出现故障，接着多台BAKCUP就会进行选举，优先级最高的BACKUP将称为新的MASTER，这种选举角色切换非常之快，因而保证了服务的持续可用性。

2) 工作原理 Keepalived作为一个高性能集群软件，它还能实现对集群中服务器运行状态的监控以及故障隔离,工作方式有抢占式和非抢占; Keepalived工作在TCP/IP 参考模型的三层、四层、五层分别为：网络层，传输层和应用层，根据TCP、IP参数模型隔层所能实现的功能:

网络层：运行4个重要协议,互联网络IP协议，互联网络可控制报文协议ICMP、地址转换协议ARP、反向地址转换协议RARP;传输层：提供两个主要的协议,传输控制协议TCP和用户数据协议UDP，传输控制协议TCP可以提供可靠的数据输出服务、IP地址和端口，代表TCP的一个连接端，要获得TCP服务，需要在发送机的一个端口和接收机的一个端口上建立连接，而Keepalived在传输层里利用了TCP协议的端口连接和扫描技术来判断集群节点的端口是否正常，比如对于常见的WEB服务器80端口。Keepalived一旦在传输层探测到这些端口号没有数据响应和数据返回，就认为这些端口发生异常，然后强制将这些端口所对应的节点从服务器集群中剔除掉。在应用层：可以运行FTP，TELNET，SMTP，DNS等各种不同类型的高层协议，Keepalived的运行方式也更加全面化和复杂化，用户可以通过自定义Keepalived工作方式，例如：可以通过编写程序或者脚本来运行Keepalived，而Keepalived将根据用户的设定参数检测各种程序或者服务是否允许正常，如果Keepalived的检测结果和用户设定的不一致时，Keepalived将把对应的服务器从服务器集群中剔除;

工作模式：

主/备：单虚拟路径器；
主/主：主/备（虚拟路径器），备/主（虚拟路径器）

3) 结构体系 Keepalived起初是为LVS设计的高可用ipvs服务，由于Keeplalived可以实现对集群节点的状态检测，而IPVS可以实现负载均衡功能，因此,Keepalived借助于第三方模块IPVS就可以很方便地搭建一套负载均衡系统，在这里有个误区，=由于Keepalived可以和IPVS一起很好的工作，很多学员都以为Keepalived就是一个负载均衡软件这种理解是错误，

从下面的图可以看出用户空间层，是建立在内核空间层之上：

用户空间层主要有4个部分：Scheduler I/O Multiplexer 是一个I/O复用分发调度器，它负载安排Keepalived所有内部的任务请求，Memory Mngt 是一个内存管理机制，这个框架提供了访问内存的一些通用方法 Control Plane 是keepalived的控制版面，可以实现对配置文件编译和解析Core componets 这部分主要保护呢了5个部分WatchDog:负载监控checkers和VRRP进程的状况VRRP Stack:负载负载均衡器之间的失败切换FailOver,如果只用一个负载均稀器,则VRRP不是必须的。Checkers:负责真实服务器的健康检查healthchecking,是keepalived最主要的功能。换言之,可以没有VRRP Stack,但健康检查healthchecking是一定要有的。IPVS wrapper:用户发送设定的规则到内核ipvs代码Netlink Reflector:用来设定vrrp的vip地址等。内核空间,主要有两个部分:IPVS 实现复制均衡 NetLINK 模块主要用于实现一些高级路由框架和一些相关参数的网络功能，完成用户空间层Netlink Reflector模块发来的各种网络请求。

IP	用途
10.10.107.222	Master / httpd
10.10.107.221	Slave / httpd
10.10.107.236	VIP 漂移

加载全部内容

Keepalived高可用服务解决方案

文章目录

0x00 快速入门

0x02 Keepalived 介绍与组成

0x03 Keepalived 环境与实例

0x04 命令详解

0x05 配置文件

0x06 入坑记

haproxy的故障转移

mysql 与 keepalived