【稳定性day0】稳定性治理的三种思想—亚马逊、Netflix与蚂蚁金服

时间:2020-03-07 来源: 国际新闻

1.稳定性、可用性和可维护性是三个相关的概念,统称为内存,很容易混淆。因此,需要特别的解释。根据《ISO IEC -2011 SQuaRE》标准,稳定性可以理解为“处理故障的能力,它对用户是可用的,并且受到诸如性能、可用性、可维护性等因素的影响。”稳定不是纯粹的。混淆内存是正常的,但是处理错误是非常清楚的。

本文中高可用性的定义是:应对大流量的稳定性。因此,实施计划还涉及二语习得和其他指标的操作。

2。稳定性治理的三个理念

什么是交易的高可用性方向?故障涉及方方面面,高可用性方法有很多种。我们需要几种基本方法来指导高可用性的长期管理方向。我们从三个角度来看待高可用性:可用性计算公式、复杂系统理论和交易技术事故分类规范。从不同的角度看问题会导致不同的分析路径。

2。稳定性治理的三个理念

第一个理解可以从可用性计算公式(可用性估计)开始,包括两个变量:故障概率和故障持续时间,增加平均故障间隔时间和减少MTTR。它主要包括三种方法:降低故障概率、减少故障恢复时间和制造故障概率(可控)。为什么有必要人为地制造失败的可能性?因为相应的故障频率相对较低,所以无法提前很好地发现故障,而制造故障的性质有助于解决这些问题。降低失败的概率是未知的工作,而制造失败的概率是未知的工作。

availability tyestimate=MTBF/(MTBF MTTR).MTBF:theantimebetweenfailure,MTTR:mean timetorecovere

下图显示了从这三种策略派生的一些主要方法,参见Amazon 《AWS Reliability Pillar 2019》。拆卸稳定性原则

可用性公式(灰色部分源于《AWS Reliability Pillar 2019》)

2。稳定性治理的三个理念

分布式系统具有复杂系统的一般特征。它可以用来研究和指导分布式系统。这个想法的灵感来自网飞《Mastering Chaos—A Netflix Guide to Microservices》。网飞拥有一系列稳定的开源产品,这些产品在行业中具有重大影响,包括海丝特、混沌猴、祖尔、自动缩放等。

根据《What is a Complex System(James Ladyman etc.)》论文中对复杂系统定义的研究,复杂系统的一个特点是系统主要维持“无序”和“稳健秩序”之间矛盾的平衡和稳定。当系统突破临界值时,将产生更大的无序。从这一对矛盾出发,有两种思路:它不仅可以通过仿真环境增加混乱和激化矛盾,还可以增加稳定性、鲁棒性和减少矛盾。

复杂理论的原理可以概括如下:随机性、依赖性和规模是影响系统稳定性的三个主要因素。分而治之,自主和反馈是正确的方法,无序是令人惊讶的方法。下图显示了从这一原则衍生的主要方法。

复杂系统理论分解的稳定性方法(灰色部分源于《Mastering Chaos—A Netflix Guide to Microservices》)

2。稳定性治理的三个理念

有两个主要因素影响事故分类:资本损失和经验损失。

从避免资本损失和经验损失两种策略中总结出的一些主要方法如下图所示。鉴于蚂蚁金服在金融领域的行业影响力,主要指蚂蚁金服将高可用性与资金安全性相结合的技术风险防控平台。资本安全也是影响系统稳定性的一个重要因素。

拆卸交易事故稳定性方法(灰色部分源于《蚂蚁金服 TRaaS 技术风险防控平台》)

2。稳定性治理的三个理念

3.1。设计挑战

什么构成了交易可用性的挑战?可以归纳为四点:故障的随机性(软件和硬件、网络故障等)。),系统规模(长事务链接,许多外部依赖),系统变化(假日流量,函数的迭代发布),以及事务错误的重大影响。前三点是导致系统故障的重要因素,如下图所示。

0663

这三个因素也决定了稳定性需要长期运行,并且不能一劳永逸地解决(更本质地说,它是由系统的熵增加决定的)。这意味着,即使有专业的SRE团队和稳定的技术产品系统,像亚马逊和阿里这样的大公司也不能说“即使他们系统地这样做也够了”。只要有业务需求的迭代,只要有变化,只要系统存在,就需要长时间运行。

3.2。系统全景

事务可用性方向如下:

1)利用划分和隔离的思想,将复杂系统转化为N个相对简单的子系统,简化了系统的规模,减少了模块间的依赖,减少了长链的比例。在系统架构阶段应该密切注意这一点。

2)每个子系统需要具有健康反馈能力,能够实时感知故障,并实现故障自愈,以应对故障的随机性。

3)为了减少故障频率低、稳定性验证困难的问题,也为了防止系统处于临界状态(小问题导致大故障),需要随时在生产环境中进行随机故障演习和压力测试。至于失败练习,以前人们没有给予足够的重视。这是进化的强大驱动力。系统完成得越早,成本和风险就越低。

4)不同的故障对业务有不同的影响。我们可以通过灵活的可用性和其他方法减少影响并确保用户的核心体验。关注贸易业务的全球资本链。

5)我们不仅需要建立系统的稳定性,还需要控制整个R&D过程,包括成本效益、架构设计、持续交付、组织支持、故障处理机制等。阿里运行维护有数据来源,60%~80%的故障源于版本变更。

4。稳定性子项交付成熟度-测量标准。

高可用性交易结果的量化应基于每个团队的技术失败次数。高交易可用性构建过程的量化主要涉及两个方面:做什么和如何量化这些事情。本文参考了阿里运维参考自动化的分类方法,从功能完善和自动化程度两个维度定义了交易高可用性成熟度等级,如下表所示。本文中的自适应能力、自适应故障参考、混沌工程参考和监测报警参考分别为《企业级 AIOps 实施建议》、《AWS混沌工程成熟度分级标准》和《stack state监控成熟度模型》。

Q3Q4将主要实现2019年绿色表达和2020年全覆盖的目标。

分类

工作内容

L0(无自动驾驶)

L1(具有特定功能的自动驾驶)

L2(具有复合功能的自动驾驶)

L3(在受限条件下无人驾驶)

L4(在全工作条件下无人驾驶)

健康反馈

监控报警

全员劳动

独立组件监控

分级监控

全链路监控

智能分析、预测、自愈

分区单元

服务隔离

无隔离

独立组件隔离

基础设施隔离(网络、计算机房、容器、组件、数据库等)。)。包括:布景、车道等。

服务隔离

环境隔离

单元自我修复

自适应能力

数据收集和分析工具

流量调度平台和容量扩展和缩减平台。

包括:限流、扩容等。

基于规则的自动调度和容量扩展

智能调度扩展以独立规划成本和容量计划

支持服务整个生命周期的所有基本操作和维护工作,由智能系统接管,以独立实现可用性、成本和效率的整体优化

自适应故障

按需开发跟踪和处理脚本

预先计划平台

基于预先计划的自动停止丢失;适应性可测性;

示例:依赖关系、核心链接等。

智能故障ONCALL能够自动计划止损方案;适应性可测性;

支持服务整个生命周期的所有基本操作和维护工作,由智能系统接管,以独立实现可用性、成本和效率的整体优化

攻防演练

全链路压力测量

全员劳动

单机压力测量

全链路压力测量

全链路压力m

全员劳动

生产环境的运行;周期性自动化;丰富故障场景

R&D工程

发布变更

=更多文章,请参考:《中国互联网业务研发体系架构指南》

频道热点
新闻排行
  1. 据印度科技媒体91Mobiles报道,三星、OPPO、vivo和realme将于明年更新销售策略。具体来说,明年四大手机巨?

    据印度科技媒体91Mobiles报道,三星、OPPO、vivo和realme将于明年更新销售策略。具体来说,明年四大手机巨?...

  2.   近日,我们从相关渠道再次获得了一组哈弗全新F7车型的沙漠路试谍照以及该车型的关键配置信息。哈弗全新

      近日,我们从相关渠道再次获得了一组哈弗全新F7车型的沙漠路试谍照以及该车型的关键配置信息。哈弗全新...

  3. 目前,许多农民专业合作社都想朝着蓝莓种植的方向发展,但蓝莓种植也受到地域的限制。蓝莓生产区在哪里?种

    目前,许多农民专业合作社都想朝着蓝莓种植的方向发展,但蓝莓种植也受到地域的限制。蓝莓生产区在哪里?种...

  4. 众所周知,现在随着三大运营商正式宣布5G网络的商业应用,这意味着我们将全面迈向5G时代。许多互联网巨头预

    众所周知,现在随着三大运营商正式宣布5G网络的商业应用,这意味着我们将全面迈向5G时代。许多互联网巨头预...

  5. “你们农场的羊肉很好吃。我订购了10公斤。”最近,陈凯正忙着给顾客送货,微信不时收到预订信息。“我现在

    “你们农场的羊肉很好吃。我订购了10公斤。”最近,陈凯正忙着给顾客送货,微信不时收到预订信息。“我现在...

  6.   【车讯网报道】1月9日,上汽通用五菱旗下全新微型客车五菱宏光V正式上市。新车共推出6款车型,分别搭载

      【车讯网报道】1月9日,上汽通用五菱旗下全新微型客车五菱宏光V正式上市。新车共推出6款车型,分别搭载...

  7. 最近,全国各地公布了今年上半年的所有经济数据。上海证券交易所的报纸发现,今年上半年地区板块有许多亮点

    最近,全国各地公布了今年上半年的所有经济数据。上海证券交易所的报纸发现,今年上半年地区板块有许多亮点...

  8. 随着科学技术的发展,芯片已经广泛应用于制造业的各个领域。那么,什么是芯片?如何制作薯片?涉及多少高科

    随着科学技术的发展,芯片已经广泛应用于制造业的各个领域。那么,什么是芯片?如何制作薯片?涉及多少高科...

  9. 锘胯繖绡囨枃绔犳槸铡熷垱镄勶紝娆㈣繋链嫔弸鍒嗕韩鍜岃浆杞姐?备粖澶╃殑姹借溅鍙戝睍宸茬粡涓嶆槸杩囧幓?

    锘胯繖绡囨枃绔犳槸铡熷垱镄勶紝娆㈣繋链嫔弸鍒嗕韩鍜岃浆杞姐?备粖澶╃殑姹借溅鍙戝睍宸茬粡涓嶆槸杩囧幓?...

  10. 猪饲料反转拐点已经确立,2Q16销量同比呈现正增长。增长率可能超过10%。动机的三个方面已经确定。一是栅栏?

    猪饲料反转拐点已经确立,2Q16销量同比呈现正增长。增长率可能超过10%。动机的三个方面已经确定。一是栅栏?...

友情链接