高阶运维

TRaaS 技术风险防控平台,是以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托,形成的解决用户上云和分布式改造过程中,可观测、故障应急、容灾、混沌工程、资金安全、压测等运维问题的平台产品。

image

高可用管理平台

高可用管理平台(High Availability Service,HAS)是以容灾为主的高可用管控平台产品,可实现容灾方案的端到端整体能力,从客户业务到中间件、PaaS 以及 IaaS 整体的容灾切换及恢复、容灾规划、容灾模拟演练等能力,并包含整体机房及容灾状态的监控能力、容灾大盘展示、环境巡检、风险应急等。

HAS 提供容灾服务视图、预案编排能力、切换和恢复能力,支持多机房部署架构下的机房级别一键容灾切换和恢复。

产品架构

BB2DA5~1

产品优势

  • 蚂蚁技术风险管理体系方法论+平台工具完整落地

    通过高可用管理平台工具,可以输出蚂蚁多年积累点的技术风险防控内容,并在此基础上助力用户建设符合用户实际情况的技术风险防控体系,提升用户整体技术风险防控水平。

  • 技术风险防控效率有效提升

    通过高可用管理平台技术风险防控能力,自动化、标准化、例行化日常运维,降低操作复杂度,运维结果清晰可见,实现风险事件的闭环管理。

    • 通过日常巡检主动感知业务运行风险,在对业务造成影响前及时处理。

    • 自动化故障诊断和标准化应急预案,快速定位并恢复故障,减少因故障引起的业务中断时间。

    • 故障演练主动检验应用的高可用能力。

    • 支持蚂蚁产品双中心容灾切换,满足监管合规需求。

  • 技术风险防控内容库快速更新

    阿里云、蚂蚁技术风险团队基于域内、域外技术风险防控经验,共建日常巡检、故障诊断、应急预案内容库,用户可享受最新的技术风险防控内容。

  • 金融级容灾

    容灾等级最高可达 5 级。

    容灾能力丰富,支持容灾大屏监控告警、容灾仿真演练、容灾巡检等能力。

    经过支付宝和网商银行规模验证。

  • 全链路容灾

    支持从客户应用到中枢态的全链路容灾能力,实现端到端整体容灾,全链路监控和运维,无需多平台对接。包含用户应用、中间件、PaaS、IaaS 全链路多层容灾。

  • 多场景容灾

    支持金融行业的全部容灾场景:

    • 同城双活

    • 异地主备

    • 两地三中心

    • LDC 单元化

应用场景

日常风险防控

在日常的运维场景中,通过多功能模块的联动使用,自动化执行日常运维脚本,实现定期可控的日常巡检运维;同时不断更新优化日常巡检、故障诊断、应急预案等内容的建设,不断丰富和完善应用技术风险防控体系,简化日常应用运维操作。

故障演练

为不断提升产品高可用能力,通过高可用管理平台的故障演练模块,设计并规划演练计划和恢复方案,继而在演练过程中不断发现、解决容灾预案存在的问题。以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。

机房级容灾

  • 同城双活:同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当一个机房故障,不影响另外一个机房业务使用。

  • 异地主备:满足容灾需求,两地不同城市分别建设两个机房,一主一备,两地距离超过 1000 km,主机房承载业务流量,备机房无业务流量,只做备用机房使用。当主机房故障,可以切换流量到备机房快速恢复业务,等主机房故障恢复以后,再回切流量到主机房。

  • 两地三中心:两地三中心,也称为同城双活加异地主备方案,即上文提及的同城两机房做双活部署,外加一个异地机房只做备份,不承载任何业务流量,基本只做冷备数据使用。最大程度地保障了数据的高可用备份。

  • LDC 单元化(异地多活):LDC 单元化架构是可以实现异地多活和高并发场景的架构体系,LDC(Logic Data Center)逻辑数据中心是相对于传统的 IDC(Internet Data Center)提出的。逻辑数据中心所表达的中心思想是无论物理结构如何的分布,整个数据中心在逻辑上是协同和统一的。主要适用于大型互联网公司的在线交易系统支持,比如淘宝、支付宝、携程等。

全链路压测

全链路压测(Loadcenter)为企业提供涵盖性能压测、压测报告输出以及压测风险防控的一站式压测服务。结合蚂蚁集团多年的线上全链路压测经验,为您提供高仿真、低成本、高风险识别的在线压测体验。

产品架构Image 47

产品优势

  • 复杂的场景建模能力

    • 支持多种流量模型,可快速导入配置流量。

    • 支持模板化脚本及自定义开发脚本,满足不同复杂度的业务场景压测需求。

  • 强大的报告分析能力

    • 压测记录存档、集中管理。

    • 结合实时监控服务,压测结果中记录标准应用监控数据及业务自定义监控数据,可快捷地找出存在瓶颈的应用及相关性能指标。

    • 报告对比分析,追踪应用性能基线演进。

  • 稳定的压力输出能力

    压力机横向扩容,秒级动态调整压力,可满足千万级 TPS 压测需求。

  • 支持内网接口压测

    压力机资源池支持公有和租户私有两种模式:

    • 公有模式下,您无需自备压力机,可随时执行压测。

    • 私有模式下,使用您的压力机,可节省带宽成本并降低网络延时,同时支持内部接口级测试,无需暴露在公网,更安全。

  • 支持多种协议

    • 支持常规的 HTTP/HTTPS 及 SOFARPC 协议。

    • 提供基于 Java 语言的自定义开发脚本模式,可自行扩展私有协议。

  • 可靠的生产压测风险防控能力

    • 与多个金融科技产品打通,整合应用监控、业务监控以及运维能力,发现风险可自动停止压测。

    • 结合金融科技 SOFA 中间件产品,使用影子全链路压测方案,可进行压测流量和正常流量的隔离,让您可以在生产环境进行压测。

应用场景

全链路压测适用于任何有压测或者模拟流量需求的应用场景。

新系统上线测试

新系统上线前,根据预期的业务模型对系统进行压力和负载测试,测试系统是否存在性能问题以及预期容量是否能够应对上线后的业务压力。

原系统基线回归

定期对线上系统进行恒定场景的性能回归,观察系统的性能是否存在变化,及时发现迭代、技术升级带来的系统性能衰减。

系统容量评估

在开展运营活动之前,对系统容量进行压测评估,根据业务场景持续加压,评估系统容量水位,以便提前进行优化和扩容,如有限流措施,也可以通过压测来进行验证。

系统故障演练

利用持续的压测流量来验证系统异常时业务是否会受到影响。可以利用压测流量配合故障注入演练、机房容灾演练,观察业务影响程度以及恢复能力。

资金安全监控

资金安全监控平台是一个通过旁路方式,对业务流程中资金流向进行实时分析和实时告警、从技术上保障资金安全的实时核对平台,旨在保障资金在流经业务系统时,不会出现资金流失的问题。

产品架构Image 76

产品优势

  • 对生产系统无侵入,旁路采集核对数据。

  • 规则可配置,无需编码;规则随时可以新增或修改,满足多种核对需求。

  • 支持实时、准实时、T+1、T+H 等多种不同核对时效,满足您对于资损风险监控时效性的不同需求。

  • 管理功能丰富,提供核对大盘、覆盖率度量等管控能力。

  • 支持短信、邮件、钉钉等通知渠道,可为核心业务提供即时监控、即时应急保障。

  • 提供资损风险监控覆盖的度量功能,并配备专家咨询服务,将多年积累的资损防控经验带给云上用户。

应用场景

业务护航

帮助您阶段性地或定期梳理涉及资金链路的核心业务——通过配置核对规则,对各类数据作相互核对,或对数据内容作逻辑检查,确保核心业务运行无误。

变更风险检查

变更发布前,添加变更业务表与关联表的核对规则,或者变更业务表数据的检查规则,确保变更上线后不存在资损风险监控盲点。

历史数据扫雷

批量检查存量业务的历史数据是否已存在差异,及时分析差异原因并修复漏洞,追回资损。

数据质量监控

数据缺漏也可能间接引发资损。您可以配置核对规则来检查数据完整性,对数据质量进行监控,及时发现故障。