运维管理

SOFAStack CAFE(Cloud Application Fabric Engine)云应用引擎,提供应用管理、发布部署、运维编排、监控分析、容灾应急等全生命周期管理的 PaaS 平台产品,满足金融场景中经典架构和云原生架构的运维需求,帮助传统架构平滑过渡,保障金融技术风险。

image

应用场景

统一的应用运行平台

通过平台来解决大规模运维中发布、监控和审计的难题,并集成云原生的各种功能,例如容器、Serverless 和 Mesh 等,来提高运维效率。

金融级高可用架构平台支撑

提供同城双活、单元化、异地多活的 PaaS 平台支撑。

经典架构向云原生架构升级

满足金融基础架构向从容器到云原生容器化的落地路径,降低向新兴架构和运维模式的转型技术风险。

单元化应用服务

单元化应用服务(LDC Hybrid Cloud,简称 LHC)在云原生基础设施之上,在多机房、多地域的 Kubernetes 多集群场景,提供应用管理、发布运维、流量调拨、配置同步等能力。LHC 旨在提供从单 Kubernetes 集群向多活联邦集群演进的能力,提供具备容灾能力的同城双活、 两地三中心及更多机房级多活容灾场景。并可以配合 SOFAStack 各中间件产品、OceanBase 分布式数据库,形成单元化异地多活架构解决方案。

产品架构

Image 74

产品优势

  • 金融级发布

    发布过程安全可靠,可重试,可灰度,可回滚,可溯源。

    支持虚拟机和容器的混合发布,提供从虚拟机到容器的过渡方案。

  • 运行时监控

    业务自定义大盘随时关注业务动态。

    实时监控应用基础指标,如 PV、Service(应用服务被调用)、SAL(调用外部服务)等。

    全面收集基础资源指标,如 CPU、内存、IO 流量等。

  • 微服务框架

    深度集成蚂蚁 SOFA Mesh 做异构语言的服务注册发现及通信。

  • 网络模式

    支持 VPC 和 Overlay 两种网络模式。

    支持负载均衡类型的 Service 和 Ingress。

  • 高可用和容灾

    支持同城双活、两地三中心容灾方案。

    支持升级至蚂蚁集团沉淀多年的单元化高可用容灾方案。

应用场景

LHC 服务于云原生模式下,通过一套应用 PaaS 平台,提供统一的应用、资源管理,以及发布运维视图,实现多集群管理、跨集群应用运维发布、资源管理、流量管理。

同城双活(active-active)

在同一个地域 Region,建立两个或更多可用区下的多个 Kubernetes 集群。

两地三中心

  • 在同城双活的基础上,增加一个异地机房,做数据和应用备份。根据网络延时和带宽情况,可选择异地热备、温备和冷备三种方案。

  • 在异地存在延迟的情况下、业务可接受的范围内,可以选择异地热备。正常情况下访问同城双活测,在容灾期间切至异地灾备机房,提供业务访问。

异地多活(Multi-region active-active)

数据层做分片(Sharding),不同的 AZ 可以划分为更多的逻辑单元(Logic Data Center),处理不同的数据分片。 尽量保证数据访问的链路从接入层到应用层再到数据层不会出现跨可用区的调用。这种架构下,可以做到任意数量地域的多活。

异构基础设施下的混合云

通过 Kubernetes 屏蔽掉底层 IaaS 的差异性,可充分利用公有云上的资源,将业务同时在专有云和公有云上进行部署,并进行统一运维管控。在该场景下,可以帮助金融客户达到以下目的:

  • 减少开发、测试资源的投入:专有云部署生产应用,公有云按需部署开发测试应用。

  • 线下快速容灾需求:应国家监管需求,需要在线下部署一套环境,以应对公有云上的突发情况,客户案例如天弘余额宝)

  • 弹性扩容:结合异地多活架构,使业务能够按需进行机房级的无限水平扩展。

经典应用服务

经典应用服务(Classic Application Service,简称 CAS)以应用为核心视图,对应用的版本、发布包、资源等进行可视化、自动化管理。经典应用服务提供自动化、智能化的应用全生命周期 DevOps 支持,提升效率、降低成本、减少人为错误,让开发人员专注于业务逻辑本身。

产品架构93A798~1

产品优势

  • 以应用为核心视角的 DevOps

    提供应用全生命周期的 DevOps 自动化支持,将传统的以 IT 资源为核心的管理视角转换成以应用、业务为核心视角,使用户可以专注于业务价值的同时,提升研发效率、降低人为出错的可能。

  • 可定制的自动化运维

    以自定义的技术栈方案,为用户提供可定制的自动化运维,提升了云平台的灵活性和对用户存量系统的兼容支持性,方便用户在平台上使用自己熟悉的、非 SOFAStack 原生提供的技术框架。

  • 强大的发布部署能力

    提供分组发布、Beta 发布、灰度发布、单机房发布、蓝绿发布等多种灵活的部署策略,从各种需求层面,支持可视化、自动化、可重试、可回滚的发布部署。

  • 灵活的运维管道能力

    提供录入,执行用户自定义的运维命令和脚本通道,方便用户做自定义的运维指令操作。

应用场景

传统运维能力支持

传统企业的大部分核心业务仍然未进行容器化,仍然使用传统代码包的方式进行虚拟机/物理机发布,CAS 支持传统运维方式向容器化运维平滑演进。

解耦 IaaS 与 PaaS

在经典运维场景,CAS 也支持阿里云的 IaaS 以及华为云的 IaaS 场景,后续的其他供应商 IaaS 正在持续集成适配中。让用户可以无需对底座有强依赖关系,真正做到 IaaS 与 PaaS 的解耦。

CICD 的集成

提供全面的应用生命周期 API,供上游 CI 平台进行集成,形成 CICD 闭环。

容器应用服务

容器应用服务(Application Kubernetes Service,简称 AKS)全面集成 Kubernetes,提供完整的集群管控、认证授权、容器网络、持久卷存储等方面的平台能力。在兼顾标准化一致性的 Kubernetes 能力的同时,亦将源自实践的应用全生命周期的发布部署能力通过产品化的形式交付

产品架构03997B~1

产品优势

  • 金融级发布

    发布过程安全可靠,可重试,可灰度,可回滚,可溯源。

    支持虚拟机和容器的混合发布,提供从虚拟机到容器的过渡方案。

  • 运行时监控

    业务自定义大盘随时关注业务动态。

    实时监控应用基础指标,如 PV、Service(应用服务被调用)、SAL(调用外部服务)等。

    全面收集基础资源指标,如 CPU、内存、IO 流量等。

  • 微服务框架

    深度集成蚂蚁 SOFA Mesh 做异构语言的服务注册发现及通信。

    支持原生部署 Istio 做 Service Mesh 提供微服务能力。

  • 网络模式

    支持 VPC 和经典网络两种网络模式。

  • 高可用和容灾

    支持经典的同城双活、两地三中心容灾方案。

    支持阿里云沉淀多年的单元化高可用容灾方案。

应用场景

使用 SOFA 技术栈的传统研发运维体系

这类体系的应用使用 SOFABoot 进行开发或直接使用 SOFA Mesh,系统间关系复杂,有依赖关系,并且深度使用了 SOFAStack 产品,需要和现有 PaaS 的发布部署能力做无缝对接:

  • 多应用同时发布运维,可做应用分组、应用依赖关系调整等高阶发布运维能力。

  • 需要蓝绿发布,单元化发布能力。

说明

该场景下,您需在 AKS 中创建应用服务,使用 SOFABoot 运行时镜像作为基础镜像构建应用镜像,以原地升级方式进行发布单级别的部署,就可使应用服务在 AKS 上运行,与虚拟机提供的服务进行交互,并与现有 SOFAStack 产品做无缝对接。

使用 SOFA 技术栈的轻量级研发运维体系

这类体系的应用使用 SOFABoot 进行开发或者使用 SOFA Mesh,和 SOFAStack 产品有紧密结合。这类应用的特点为:

  • 不需要多应用同时发布,即应用可以进行独立发布。

  • 需要做无损发布。

  • 没有历史包袱,可接受 CloudNative 方式运维。

说明

该场景下,您只需在 AKS 中创建应用服务,使用 SOFABoot 运行时镜像作为基础镜像构建应用镜像,以原地升级方式进行部署管理,即可使应用服务在 AKS 上运行,并和现有 SOFAStack 产品无缝对接。

使用云原生技术体系

这类体系的应用通常采用传统 Spring 或者 SpringBoot 技术栈,配合 Eureka,ZooKeeper 做服务注册与发现,并配套 CNCF 生态的监控,链路工具,自成一体。这类的应用的特点为:

  • 业务对错误容忍性高,或非关键链路系统。

  • 进行独立发布。

  • 没有历史包袱,可接受 CloudNative 方式运维。

  • 不需要和 SOFAStack 产品结合,比如监控、弹性伸缩、容灾、中间件等。

说明

该场景下,您只需在 AKS 中创建应用服务,使用 SOFABoot 运行时镜像作为基础镜像构建应用镜像,以原地升级方式进行部署管理,即可使应用服务在 AKS 上运行,并和现有 SOFAStack 产品无缝对接。

业务实时监控

实时监控服务(Real-time Monitoring Service,简称 RMS)是一款具有可视化监测能力的金融级监控产品。

基于日志、指标、链路等海量数据进行多维聚合,向用户提供业务监控、应用监控、云原生监控、基础资源监控、日志查询分析、分布式链路等多角度的可视化监测功能,有丰富的可视化大盘,并提供了告警订阅功能。

该服务可以帮助运维、研发、SRE (Site Reliability Engineer)等快速地发现问题、定位问题、分析问题、解决问题,为线上系统可用率提供有效保障。

经过蚂蚁场景历练,为大规模和复杂业务场景提供全方位的可观测性和洞察分析能力。

产品架构Image 75

产品优势

  • 全方位实时监控

    提供业务、应用、基础资源、云原生等各种视角的监控能力,可实现关键指标秒级、普通指标分钟级的监控,具有高可靠、高时效、低延迟的特点。

  • 灵活的报警规则

    可根据业务特征、时间段、重要程度等维度设置报警规则,实现不误报、不漏报。

  • 便捷的自定义配置

    具有丰富的自定义产品配置功能,可便捷、高效地进行产品、报警配置。

  • 开放的技术栈配置

    可实现 Kubernetes、SOFA 技术栈应用部署即监控,通过简单技术栈配置,即可接入并监控非标业务应用。

  • 可视化大盘

    丰富的可视化大盘,帮助您定制个性化的监控大盘。

  • 分布式链路

    提供应用拓扑和链路查询功能,观测应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志,从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障定责等运维开发工作。

  • 日志查询和日志关联

    提供日志查询和日志关联功能。用户不仅可以对日志执行查询操作,还可以进行历史查询和上下文查询,以及查看 Error 指标关联的错误日志和链路关联业务日志,更加方便高效地进行问题分析定位。

  • 低资源占用

    在可靠传输大量监控数据时,保证对宿主机的 CPU、内存等资源的极低占用率。

  • 高可用

    提供万台设备的分钟级监控部署能力,故障自动恢复,集群可伸缩。

  • 稳定高效的时序和数据存储

    在线持续聚合数据,保证数据容量可控,提供智能分级存储、存放策略。

应用场景

立体化运维

深度对接 Kubernetes、SOFA 等技术栈应用服务,一站式收集基础设施、中间件、应用运行时数据和业务数据,通过指标监控、日志分析、链路追踪、告警订阅等功能,对应用性能、运行状态和资源使用等提供立体化运维分析,及时发现并定位应用、资源及平台的问题。

  • 一站式分析:在应用总览中可查看应用错误指标趋势、应用链路、应用指标和系统指标等,提供一站式的应用分析能力。

  • 全方位监控:覆盖基础设施、云数据库、云中间件、应用等多个维度监控,提供一站式运维能力。

  • 故障关联分析:以应用为中心,覆盖组件、实例、主机、云资源等多维度关联分析,迅速找到异常故障点。

问题分析与快速定位

在分布式场景下,服务调用错综复杂,问题分析与定位非常困难,分布式链路跟踪系统能迅速定位到有问题的服务,协助快速解决问题节点。

  • 完整的应用调用拓扑关系:自动发现该服务的历史调用,以及对所有中间件的调用,绘制整个系统调用关系的拓扑图。

  • 快速定位不健康应用:在调用关系拓扑中,对不健康应用进行显式标识,便于快速发现有问题应用并进行分析。

  • 服务性能详情:调用拓扑中的应用都可以单独进行下钻分析,可以从吞吐量、错误率、响应时间等指标出发,对应用性能进行详细分析。

应用性能优化

在调用关系拓扑中,可以对各个应用的调用次数以及耗时情况进行分析,找到负载较高以及负载较少的应用,从而对资源进行合理利用。

  • 调用链路聚合汇总:对所有的调用信息进行聚合汇总,对各个应用的调用情况以及响应情况进行分析。

  • 关键路径:快速发现整个系统调用拓扑中,关键应用的路径。

  • 优化不合理调用:及时发现某些不合理的调用并进行处理,如频繁进行数据库操作等。