功能特性

高可用管理平台 HAS 定位于 IT 技术风险防控。产品主要功能包括风险管理、日常巡检、故障诊断、应急预案、故障演练等。

风险管理

风险管理 是高可用管理平台核心,是风险事件汇集、处置的中枢平台,具体如下。

风险事件

  • 风险事件汇集:负责将监控、巡检、诊断产生的风险或告警信息进行汇总。

  • 风险事件处置:支持直接在风险事件列表中,对风险事件进行处理。在处理风险事件时,风险管理能够推荐可执行的应急预案,支持直接触发执行。

风险场景

风险场景 是针对特定风险事件进行集中化处理的模块,风险场景中包含了处理风险事件所需要诊断决策树、应急预案、业务影响等信息。目前应急场景升级后,需要将风险场景和应急响应联动,所以需要添加更多属性。

日常巡检

日常巡检 是高可用管理平台最常用的功能。通过日常巡检功能,可以例行化、自动化地对系统稳定性、可用性进行巡查,并将巡检结果实时同步推送至指定的钉钉群中,便于运维人员第一时间了解应用风险;同时支持生成巡检报告,供运维人员统一归档。巡检插件支持多种类型,包括 python、Shell、自动化测试镜像、页面探活等。用户可以根据应用情况自定义巡检插件。同时,高可用管理平台也提供了蚂蚁内部及各个用户长期使用过程中沉淀的巡检规则,开箱即用。

故障诊断

故障诊断 的核心能力是将在运维人员头脑中或在故障排查手册中的经验、排查过程通过工具平台进行沉淀和展示。

运维人员通过决策树方式,图形化地编排故障诊断过程、设计排查顺序。继而在风险事件发生时,将例行化、程式化、标准化的排查过程,通过故障决策树自动执行,并直接反馈诊断结果。通过故障诊断平台,能够极大地缩短故障排查时间。同时,屏蔽了不同运维人员在故障排查时的经验和技能差异,实现故障的快速定位。

应急预案

应急预案 提供了应用运维原子操作的编排能力,如应用重启、应用摘流、数据库切换、物理服务器重启等操作。

运维人员可以根据常见故障场景的处理过程,选择需要的原子能力进行编排组合,形成可执行的应急预案。当风险事件发生时,风险事件中心会推荐可执行的应急预案,供运维快速选择并自动化执行,从而通过标准化处理流程,实现故障快速恢复。

故障演练

故障演练 提供了故障注入能力,通过演练平台主动触发故障,以此观测应用软件的高可用性。

故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

故障演练