0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

业界常用的多活手段及各方案优缺点

454398 来源: Chinaunix 作者:vivo互联网威廉希尔官方网站 2020-10-10 14:00 次阅读

采用高可用系统架构支持重要系统,为关键业务提供7x24的不间断服务,已经成为众多企业保障业务稳定、持续运转的主要选择。服务多活是高可用架构重要实施手段,本文介绍了一些业界常用的多活手段例如同城双活、两地三中心、异地多活架构设计方案并详述了各种方案的优缺点。

一、为什么要做多活

随着移动互联网的深入发展,用户增长达到一定规模后,不少企业都会面高并发业务和临海量数据的挑战,传统的单机房在机器容量上存在瓶颈。在一些极端场景下,有可能所有服务器都出现故障,例如机房断电、机房火灾、地震等这些不卡抗拒因素会导致系统所有服务器都故障从而导致业务整体瘫痪,而且即使有其他地区的备份,把备份业务系统全部恢复到能够正常提供业务,花费的时间也比较长。为了满足中心业务连续性,增强抗风险能力,多活作为一种可靠的高可用部署架构,成为各大互联网公司的首要选择。

1、多活场景

多活架构的关键点就是指不同地理位置上的系统都能够提供业务服务,这里的“活”是指实时提供服务的意思。与“活”对应的是字是“备”,备是备份,正常情况下对外是不提供服务的,如果需要提供服务,则需要大量的人工干预和操作,花费大量的时间才能让“备”变成“活。单纯从描述来看多活很强大,能够保证在灾难的情况下业务都不受影响,是不是意味着不管什么业务,我们都要去实现多活架构呢?其实不是,实现多活架构都要付出一定的代价,具体表现为:

不同多活方案实现复杂度不一样,随着业务规模和容灾级别的提升,多活方案会给业务系统设计带来更大复杂度。

不管采用哪种多活方案都难以完全避免跨机房甚至是跨地区服务调用带来的耗时增加。

多活会带来成本会上升,毕竟要多在一个或者多个机房搭建独立的一套业务系统。

因此,多活虽然功能很强大,但也不是每个业务都要上多活。例如,企业内部的 IT 系统、管理系统、博客站点等,如果无法承受异地多活带来的复杂度和成本,是可以不做异地多活的,而对于重要的业务例如核心金融、支付、交易等有必要做多活。

2、多活方案

常见的多活方案有同城双活、两地三中心、三地五中心、异地多活等多种威廉希尔官方网站 方案,不同多活方案威廉希尔官方网站 要求、建设成本、运维成本都不一样,下面我们会逐步介绍这几种多活方案并给出每种方案的优点和缺点。选用哪种方案要结合具体业务规模、当前基础建设能力、投入产出比等多种因素来决定。

二、同城双活

同城双活是在同城或相近区域内建立两个机房。同城双机房距离比较近,通信线路质量较好,比较容易实现数据的同步复制 ,保证高度的数据完整性和数据零丢失。同城两个机房各承担一部分流量,一般入口流量完全随机,内部RPC调用尽量通过就近路由闭环在同机房,相当于两个机房镜像部署了两个独立集群,数据仍然是单点写到主机房数据库,然后实时同步到另外一个机房。下图展示了同城双活简单部署架构,当然一般真实部署和考虑问题要远远比下图复杂。

服务调用基本在同机房内完成闭环,数据仍然是单点写到主机房数据储存,然后实时同步复制到同城备份机房。当机房A出现问题时候运维人员只需要通过GSLB或者其他方案手动更改路由方式将流量路由到B机房。同城双活可有效用于防范火灾、建筑物破坏、供电故障、计算机系统及人为破坏引起的机房灾难。

1、服务路由

zk集群:每个机房都部署一个zk集群,机房之间zk数据进行实时双向同步,每个机房都拥有所有机房zk注册数据。

路由方案:条件路由 》 就近路由 》 跨机房路由,尽量避免跨机房调用。

订阅方案:consumer订阅所有机房服务,provider只向该机房zk集群进行注册。

2、数据双活

MySQL:采用MHA部署方案,主从半同步方案保证数据一致性。读写分离、读就近路由到机房内数据节点、写路由到master节点所在机房。

Redis: Redis cluster模式主从同步,就近读、写路由主节点机房。采用原生主从同步跨机房写性能较低,也可以依靠CRDT理论构建多节点双向同步,实现机房就近读写,但是整体实现较为复杂。

3、同城双活方案评估

优势

服务同城双活,数据同城灾备,同城不丢失数据情况下跨机房级别容灾。

架构方案较为简单,核心是解决底层数据双活,由于双机房距离近,通信质量好,底层储存例如mysql可以采用同步复制,有效保证双机房数据一致性。

劣势

数据库写数据存在跨机房调用,在复杂业务以及链路下频繁跨机房调用增加响应时间,影响系统性能和用户体验。

保证同城市地区容灾,当服务所在的城市或者地区网络整体故障、发生不可抗拒的自然灾害时候有服务故障以及丢失数据风险。对于核心金融业务至少要有跨地区级别的灾备能力。

服务规模足够大(例如单体应用超过万台机器),所有机器链接一个主数据库实例会引起连接不足问题。

三、两地三中心架构

所谓两地三中心是指 同城双中心 + 异地灾备中心。异地灾备中心是指在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,数据和服务平时都是冷的,当双中心所在城市或者地区出现异常而都无法对外提供服务的时候,异地灾备中心可以用备份数据进行业务的恢复。

业界常用的多活手段及各方案优缺点

两地三中心方案评估

优势

服务同城双活,数据同城灾备,同城不丢失数据情况下跨机房级别容灾。

架构方案较为简单,核心是解决底层数据双活,由于双机房距离近,通信质量好,底层储存例如mysql可以采用同步复制,有效保证双机房数据一致性。

灾备中心能防范同城双中心同时出现故障时候利用备份数据进行业务的恢复。

劣势

数据库写数据存在跨机房调用,在复杂业务以及链路下频繁跨机房调用增加响应时间,影响系统性能和用户体验。

服务规模足够大(例如单体应用超过万台机器),所有机器链接一个主数据库实例会引起连接不足问题。

出问题不敢轻易将流量切往异地数据备份中心,异地的备份数据中心是冷的,平时没有流量进入,因此出问题需要较长时间对异地灾备机房进行验证。

同城双活和两地三中心建设方案建设复杂度都不高,两地三中心相比同城双活有效解决了异地数据灾备问题,但是依然不能解决同城双活存在的多处缺点,想要解决这两种架构存在的弊端就要引入更复杂的解决方案去解决这些问题。

四、异地多活

异地多活指分布在异地的多个站点同时对外提供服务的业务场景。异地多活是高可用架构设计的一种,与传统的灾备设计的最主要区别在于“多活”,即所有站点都是同时在对外提供服务的。

1、异地多活挑战

(1)应用要走向异地,首先要面对的便是物理距离带来的延时。如果某个应用请求需要在异地多个单元对同一行记录进行修改,为满足异地单元间数据库数据的一致性和完整性,需要付出高昂的时间成本。

(2)解决异地高延时即要做到单元内数据读写封闭,不能出现不同单元对同一行数据进行修改,所以我们需要找到一个维度去划分单元。

(3)某个单元内访问其他单元数据需要能正确路由到对应的单元,例如A用户给B用户转账,A用户和B用户数据不在一个单元内,对B用户的操作能路由到相应的单元。

(4)面临的数据同步挑战,对于单元封闭的数据需全部同步到对应单元,对于读写分离类型的,我们要把中心的数据同步到单元。

2、单元化

所谓单元(下面我们用RZone代替),是指一个能完成所有业务操作的自包含集合,在这个集合中包含了所有业务所需的所有服务,以及分配给这个单元的数据。

单元化架构就是把单元作为系统部署的基本单位,在全站所有机房中部署数个单元,每个机房里的单元数目不定,任意一个单元都部署了系统所需的所有的应用。单元化架构下,服务仍然是分层的,不同的是每一层中的任意一个节点都属于且仅属于某一个单元,上层调用下层时,仅会选择本单元内的节点。

选择什么维度来进行流量切分,要从业务本身入手去分析。例如电商业务和金融的业务,最重要的流程即下单、支付、交易流程,通过对用户id进行数据切分拆分是最好的选择,买家的相关操作都会在买家所在的本单元内完成。对于商家相关操作则无法进行单元化,需要按照下面介绍的非单元化模式去部署。当然用户操作业务并非完全能避免跨单元甚至是跨机房调用,例如两个买家A和B转账业务,A和B所属数据单元不一致的时候,对B进行操作就需要跨单元去完成,后面我们会介绍跨单元调用服务路由问题。

3、非单元化应用和数据

对于无法单元化的业务和应用,会存在下面两种可能性:

(1)延时不铭感但是对数据一致性非常铭感,这类应用只能按照同城双活方式部署。其他应用调用该类应用的时候会存在跨地区调用可能性,要能容忍延时,这类应用我们称为MZone应用。

(2)对数据调用延时铭感但是可以容忍数据短时间不一致,这类应用和数据可以保持一个机房一份全量数据,机房之间以增量的方式实时同步,这类应用我们暂时称为QZone。

加上两种以上非单元化应用我们的机房部署可能是下面这样,每个机房有两个RZone,MZone保持类似两地三中心部署方式,异地机房调用MZone服务需要跨地区、跨机房调用。而QZone每个机房都保持一份完整数据,机房之间通过数据链路实时相互同步。

4、请求路由

(1)Api入口网关

为了保证用户请求能正确进入自己所属单元,每一个机房都会部署流量入口网关集群。当用户请求到达进入机房内最先进入到流量网关,流量网关能感知全局的流量分片情况,计算用户所处流量单元并将流量转发到对应的单元,这样就可以将用户请求路由到对应的单元内。

业界常用的多活手段及各方案优缺点

采用GateWayr转发方式可以确定用户单元从而将用户流量路由到正确位置,但是HTTP转发也会造成一定性能损耗。为了减少HTTP流量转发量,可以在在用户请求返回的时候在cookie上带上该用户的路由标识信息。当用户下次在请求的时候请求的时候可以提前获取到路由标识直接请求到对应的单元,这种方式可以大幅度减少HTTP流量转发。

(2)服务路由

虽然应用已经进行了单元化,但是依然无法避免跨单元调用,例如A用户给B用户转账,如果A和B所处单元不同,对B用户操作需要跨单元去调用,这个时候需要能将请求路由到B用户数据所在的单元。异地多活情况下RPC、MQ、DB等等中间件都需要提供路由能力,将请求能正确路由到对应的单元。下面以RPC路由为例说明异地多活下中间件是如何进行路由的,对于其他中间件(数据库中间件、缓存中间、消息中间件等)也是一样方法。

public interface ManualInterventionFacade {

@ZoneRoute(zoneType= ZoneType.RZone,uidClass = UidParseClass.class)

ManualRecommendResponse getManualRecommendCommodity(ManualRecommendRequest request);

}

上面展示了多活下的RPC接口定义方法,需要注明该RPC类型,如果是RZone服务必须要提供解析uid方法。下图展示了RPC注册中心路由寻址过程,和同城双活有一定的差异性。

业界常用的多活手段及各方案优缺点

5、数据同步

(1)QZone类型数据:这种数据只需要保证最终一致性,对于短暂不一致无影响,但是对延时非常铭感,例如一些算法、风控、配置等数据。这类数据基本上都是每个机房部署一套QZone,然后机房之间相互同步。

业界常用的多活手段及各方案优缺点

(2)MZone数据:这类数据对一致性非常铭感,不能出现不一致,只能采用同城双活部署方式,业务需要能容忍异地调用延时。

(3)RZone数据:这类数据每个Zone都有自己的主节点,如果数据不在该单元内需要路由到对应的节点去写。这类数据部署情况像下面这样

6、方案评估

优势

容灾能力大幅度提高,服务异地多活,数据异地多活。

理论上系统服务可以水平扩展,异地多机房突破大幅度提升整体容量,理论上不会有性能担忧。

将用户流量切分到多个机房和地区去,有效能减少机房和地区级别的故障影响范围。

劣势

架构非常复杂,部署和运维成本很高,需要对公司依赖的中间件、储存做多方面能力改造。

对业务系统有一定的侵入性,由于单元化影响服务调用或者写入数据要路由到对应的单元,业务系统需要设置路由标识(例如uid)。

无法完全避免跨单元、跨地区调用服务,例如上面的转账业务。我们要做的是尽力避免跨地区的服务调用。

五、总结

本文讨论了一些多活建设的大体思路以及一些关键威廉希尔官方网站 点的解决方案,各种不同方案对比。要建立起完整的异地多活能力远远比上面讨论的要复杂的多,需要对依赖的各种中间件、储存等做相应的单元化改造并配套完整的流量调度和运维管控能力 。

由于篇幅限制本文并未详细介绍各种储存(例如Redis、MySQL)在多活下数据同步复制以及高可用方案,有兴趣的同学可以去深入了解这方面知识。
编辑:hfy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    12

    文章

    9203

    浏览量

    85546
  • 移动互联网
    +关注

    关注

    5

    文章

    598

    浏览量

    34068
  • 系统架构
    +关注

    关注

    1

    文章

    69

    浏览量

    23536
收藏 人收藏

    评论

    相关推荐

    不同类型adc的优缺点分析

    ADC(模数转换器)是将模拟信号转换为数字信号的电路,根据转换原理和应用需求的不同,ADC可以分为多种类型,每种类型都有其独特的优缺点,以下是对不同类型ADC的优缺点分析: 逐次逼近型ADC(SAR
    的头像 发表于 11-19 16:58 887次阅读

    开环和闭环功放的区别,优缺点,应用场合有什么不同?

    问下TI的工程师,开环和闭环功放的区别,优缺点,应用场合有什么不同?请解释下,谢谢!
    发表于 11-04 06:33

    雪崩晶体管有哪些优缺点

    雪崩晶体管作为一种特殊的半导体器件,在电子领域具有其独特的优缺点
    的头像 发表于 09-23 18:05 315次阅读

    运放恒流源有哪些优缺点

    运放恒流源,即利用运算放大器(Operational Amplifier,简称运放)构成的恒流源电路,具有一系列独特的优点和缺点。以下是对其优缺点的详细分析。
    的头像 发表于 08-28 10:18 1189次阅读

    GaN HEMT有哪些优缺点

    GaN HEMT(氮化镓高电子迁移率晶体管)作为一种先进的功率半导体器件,在电力电子、高频通信、汽车电子等多个领域展现出了显著的优势,但同时也存在一些缺点。以下是对GaN HEMT优缺点的详细分析:
    的头像 发表于 08-15 11:09 1375次阅读

    AI大模型与小模型的优缺点

    在人工智能(AI)的广阔领域中,模型作为算法与数据之间的桥梁,扮演着至关重要的角色。根据模型的大小和复杂度,我们可以将其大致分为AI大模型和小模型。这两种模型在定义、优缺点及应用场景上存在着显著的差异。本文将从多个维度深入探讨AI大模型与小模型的特点,并分析其各自的优缺点
    的头像 发表于 07-10 10:39 2805次阅读

    同步整流的优缺点有哪些

    同步整流是一种在数字电路设计中常用的威廉希尔官方网站 ,它通过将电路中的所有信号同步到一个共同的时钟信号上,来实现信号之间的同步。这种威廉希尔官方网站 在数字电路设计中具有重要的作用,但同时也存在一些优缺点。以下是对同步整流
    的头像 发表于 07-09 09:09 1103次阅读

    通道数据采集系统的优缺点

    通道数据采集系统是一种广泛应用于工业、科研、医疗等领域的威廉希尔官方网站 ,它能够同时采集多个通道的信号,实现对多种物理量的实时监测和分析。本文将详细介绍通道数据采集系统的优缺点,以及其在不同领域的应用情
    的头像 发表于 07-01 15:58 1681次阅读

    nbiot和lora的优缺点是什么?

    nbiot和lora的优缺点
    发表于 06-04 06:37

    常用的无损检测方法有哪些?有何优缺点

    、建筑、电力、交通等领域。以下是一些常用的无损检测方法及其优缺点: 超声波检测(Ultrasonic Testing,简称UT) 优点: a. 检测速度快,效率高。 b. 对材料的厚度和形状适应性强。 c. 能检测到材料内部的缺陷,如裂纹、气孔、夹杂等。 d. 可实现自动
    的头像 发表于 05-24 15:15 1326次阅读

    常用的交换芯片的优缺点有哪些

    常用的交换芯片在网络通信中扮演着至关重要的角色,它们负责高速、高效地处理数据转发和交换任务。然而,每种交换芯片都有其独特的优缺点,这取决于其设计、制造工艺以及应用场景。
    的头像 发表于 03-22 16:36 987次阅读

    日本大带宽服务器优缺点分析

    日本大带宽服务器是很多用户的选择,那么日本大带宽服务器优缺点都是什么?Rak部落小编为您整理发布日本大带宽服务器优缺点分析。
    的头像 发表于 03-22 10:08 476次阅读

    开关电源的工作模式有什么区别和优缺点

    有什么优缺点? 主要不理解的就是开关电源主要储能器件磁芯的设计,哪种工作模式会导致磁芯在多次开关管储能释放能量之后会导致饱和,影响开关电源工作? 临界模式对磁芯的设计有什么要求,与连续模式有什么区别? 断续工作模式是否是最常用的工作模式,在反激式开关电源中是否经
    发表于 03-06 21:47

    带你探索稳压器的优缺点和选择技巧

    TOREX特瑞仕(KOYUELEC光与电子):带你探索稳压器的优缺点和选择技巧
    的头像 发表于 01-24 10:35 891次阅读
    带你探索稳压器的<b class='flag-5'>优缺点</b>和选择技巧

    解读差分信号、单端信号的优缺点

    解读差分信号、单端信号的优缺点  差分信号和单端信号是在信号传输中常用的两种传输方式。它们各有优缺点,在不同的应用场景中选择合适的传输方式可以提高系统性能和可靠性。 差分信号是由两个相互成对的信号
    的头像 发表于 01-17 15:37 1461次阅读