如何构建高可用的分布式系统？译文-新利18国际娱乐

作者 | Kislay Verma

译者 | 崔皓

审校 | 云昭

开篇

本文讨论分布式系统如何对随机故障进行弹性处理，这个问题非常重要，因为随着系统规模的增大，随机故障会变得越来越普遍。

系统理论告诉我们，系统中相互关联的部分越多，发生故障的可能性就越大。因此，要构建一个弹性系统，我们需要减少这种相互关联。否则就需要通过 “临时”切断与故障点的连接来避免问题的发生，从而保证不会因为该故障点而殃及其他节点的正常运行。也就是我们通常所说的，针对分布式系统进行降级和熔断。

图组件之间的关系

一般而言我们会基于如下假设：在分布式系统中的任意组件在任何时刻都有可能发生故障，并且需要定义出现故障的时候对应的处理方式。

最后，我们需要在系统中创建缓冲区——提供一些宽松的手段，也就是在不能完全消除对故障组件的依赖时，采取更加柔和方式处理意外情况。

PART 02

最小化组件间的依赖

分布式系统的组件通过相互通信的方式获取数据和调用功能。基于这两种情况，都可以通过将数据/功能推送到调用组件而不是通过远程访问来获得，从而降低组件之间的连接需求。

构建大规模分布式系统迫使我们放弃标准软件工程的许多“最佳实践”。关键是，当采用分布式系统的复杂性来换取系统的可扩展性时，需要尽可能地控制组件的“分布”。以下几个要点是需要关注的：

1、副本数据

如果经常从一个组件访问某些数据，就可以复制该组件，而不必在运行时检索它。这种方式可以大大减少运行对该组件的依赖，并降低访问组件的延迟。

对于经常访问且有规律性变化的数据而言，可以通过临时缓存并配合定期缓存刷新的方式来获取他们。更改频率更低或从不更改的数据（例如客户姓名）可以直接存储在组件中。不过当这些数据发生变化时，就需要做一些额外的工作对其进行更新，不过这种小开销对于整个系统而言是值得的，因为提升了系统的弹性。

2、非规范化数据

非规范化数据以一种特殊形式的副本存在于组件中。如果使用关系数据存储数据，可以通过在主实体中复制数据的方式来降低查看多个实体的成本。对于本地化分散数据从而获得更好性能，也适用于此种方式。

3、组件库

为了减轻组件的功能依赖性，可以将远程组件打包成组件库，并将其嵌入到的需要调用该库的组件中。这种方式并不是总是可行（存在跨语言调用，或者因为组件太大而不能打包成库），因此会带来一系列问题（例如：某个功能以来多个组件库，一旦功能发生变化就需要对多个组件库进行升级）。话说回来，如果功能很关键且被经常访问，组件库的方式就可以减少组件之间的链接，让被依赖的组件库成为调用组件的本地方法。

隔离错误

错误隔离的功能非常重要，原因有二。其一，是个别错误在分布式系统中非常突出。（许多移动部件的简单功能）。其二，是如果不能防止错误通过级联的方式影响整个系统，那么就无法构建复杂系统架构。

错误隔离的由 SLA（Service Level Agreement 服务保障协议）构成。它针对每个组件声明了质量参数，在组件执行过程时会参照这些参数。质量参数包括：延迟、错误率、并发性等。

当一个组件调用进行SLA设置的组件时，调用方会根据被调用方的SLA参数进行设置，其目的是在调用失败的时候可以采取对应的处理措施。例如，调用方发现被调用方的错误率到达了70%，就会延迟5s再调用该组件。

如果被调用方的组件检测到无法维护自身的SLA，它可以先发制人地告诉其调用者后退并稍后再回来。即，一旦被调用方自己感觉不太好了，就告诉调用方你等下再来访问。

同时为了保持整体系统的健康，最好使用快速失败的方式告知调用方，而不是在违反 SLA 的情况下让调用方成功调用。需要注意的是，调用方和被调用方都必须进行该设置。

保护调用者

超时：如果被调用的组件在其 SLA 设置范围内没有响应，调用者必须设置对应的超时机制，或放弃又或者采用回退机制（即使抛出错误），从而维护自己的 SLA 并防止一连串的 SLA 违规现象的发生。

重试：网络不可靠性会引发分布式系统中的随机错误。假设在调用者自身的 SLA设置允许的情况下，可以进行重试操作。重试操作的前提是被调用者需要支持操作的幂等性。即不论进行多少次操作对数据状态的改变也只算做一次。

断路器：如果调用连续失败，调用者可以通过“打开电路”的方式切断连接并停止调用一段时间。由于调用者针对错误场景有备份方案，从而可以节省调用者宝贵的资源，否者这些资源就会被浪费掉。停止调用还可以减少被调用组件的负载，给其留有喘息的余地。

“断路器库”会对有问题的组件进行定期轮询，并在其可能恢复性能时重新启动调用机制。

保护被调用者

随机补偿：虽然重试可以减少调用错误发生的概率，但对于被频繁调用的组件而言，出现小小的性能问题都会导致调用者进行重试操作。在调用者足够多的情况下，就会形成 “重试风暴”，其结果会造成负载峰值并不利于被调用者的恢复。为了防止这种情况的发生，应该设置随机的重试时间间隔，使重试负载交错进行。

背压：如果一个组件检测到自己承受过多的负载并且即将违反其 SLA，它可以抢先开始丢弃新请求，直到其性能得到控制。这比接受它知道它不能在 SLA 内提供服务或没有完全崩溃风险的请求要好得多。

在系统中建立缓冲区

1、异步通信

可以通过消息总线之类的异步通信方式，调用远程组件而无需非常严格的 SLA 参数规则。消息总线种存放要访问被调用方的请求，被调用组件准备好之后再处理这些请求，而不是立即处理请求，这样系统就可以更加灵活地处理负载了。

2、弹性供应

可扩展性也可以通过利用硬件扩展的方式实现。如果系统规模不断增长，就需要分配更多硬件资源满足系统的需求。虽然这种扩展方式需要考虑成本，并在我们能够承受的范围里实现，但它也为抵御不可预测负载提供了最后一道防线。

原文链接：

https://kislayverma.com/software-architecture/building-robust-distributed-systems/

译者介绍

崔皓，51CTO社区编辑，资深架构师，拥有18年的软件开发和架构经验，10年分布式架构经验。曾任惠普技术专家。乐于分享，撰写了很多热门技术文章，阅读量超过60万。《分布式架构原理与实践》作者。

如何构建高可用的分布式系统？译文

开篇

最小化组件间的依赖

隔离错误

保护调用者

保护被调用者

在系统中建立缓冲区

译者介绍

评论

热门资讯

51CTO

相关阅读

分布式光纤传感器技术的原理与应用场景

研究人员提出基于混沌振荡器网络的分布式测量方法

浅析“新基建”之分布式数据中心DDC

Moortec重铸用于台积电N5工艺的分布式热传感器

2020智慧屏白皮书将推动智慧屏的健康有序发展

新企业瑞莱杰森入局dts市场，据说是技术全球领先

什么是分布式综合管理平台？保伦电子itc分布式综合管理平台如何助力科学决策？

分布式光伏高速增长 600W “超级屋顶”来了

诺格和ATT公司合作开发支持5G的数字战斗网络

【下一代对象存储】专利分布式QoS技术助力业务灵活管控

51CTO

点击进入下一篇

如何构建高可用的分布式系统？ 译文

开篇

最小化组件间的依赖

隔离错误

保护调用者

保护被调用者

在系统中建立缓冲区

译者介绍

评论

热门资讯

51CTO

相关阅读

分布式光纤传感器技术的原理与应用场景

研究人员提出基于混沌振荡器网络的分布式测量方法

浅析“新基建”之分布式数据中心DDC

Moortec重铸用于台积电N5工艺的分布式热传感器

2020智慧屏白皮书将推动智慧屏的健康有序发展

新企业瑞莱杰森入局dts市场，据说是技术全球领先

什么是分布式综合管理平台？保伦电子itc分布式综合管理平台如何助力科学决策？

分布式光伏高速增长 600W “超级屋顶”来了

诺格和ATT公司合作开发支持5G的数字战斗网络

【下一代对象存储】专利分布式QoS技术助力业务灵活管控

51CTO

点击进入下一篇

如何构建高可用的分布式系统？译文