附录:SOFAStack 产品目录

SOFAStack 源于自蚂蚁内部沉淀十多年的金融级分布式中间件技术体系,吸收了支付宝自创立以来在关键金融交易系统锤炼出来的架构实践。SOFAStack 所有的产品技术均经过蚂蚁集团自身严苛的金融场景验证,为金融交易技术保证风险安全的同时,帮助业务需求敏捷迭代;同时满足异地容灾、低成本快速扩容的需求,能够解决传统集中式架构转型的困难,并通过打造大规模高可用分布式系统架构,来支撑金融业务创新。

SOFAStack 由三大领域模块组成:分布式中间件、运维管理(应用 PaaS)、高阶运维保障

image

分布式中间件

蚂蚁分布式中间件的产品发展路径,一直秉承着引领和拥抱业界先进标准和实践的理念,同时亦能满足传统金融架构的平滑迁移和融合适配,以稳妥应对业务升级变更,并积极应对金融交易系统所面临的服务和数据扩展性、事务一致性、秒级容灾、弹性供给与调度等关键技术的挑战。Image 78

双模微服务

微服务平台(SOFAStack Microservice Platform)通过微服务(SOFAStack Microservice,简称 SOFAStack MS)和服务网格(SOFAStack Mesh),提供了既支持 SOFA 框架又支持 Service Mesh 架构的微服务管理和治理能力。

  • 微服务:提供了 SOFA 框架的微服务,包含 RPC 服务、动态配置、限流熔断。

  • 服务网格:通过 Service Mesh 技术支持原生 Dubbo 、Spring Cloud、SOFA 框架,无侵入地提供了对 Dubbo、Spring Cloud、SOFA 应用的服务管理和治理能力。

产品架构7651DC~1

产品优势

  • 高性能分布式服务框架

    提供高性能和透明化的 RPC 远程服务调用,具有高可伸缩性、高容错性的特点。

  • 微服务治理中心

    提供一系列的服务治理策略,保障服务高质量运行,最终达到对外承诺的服务质量等级协议。

  • 高可靠的轻量级配置中心

    提供应用运行时动态修改配置的服务,并提供图形化的集中化管理界面。

  • 多活数据中心

    支持同城双活/异地多活架构,具备异地容灾能力,保障系统的可用性。

应用场景

传统应用微服务改造

通过微服务产品将传统金融业务系统拆分为模块化、标准化、松耦合、可插拔、可扩展的微服务架构,可缩短产品面世周期,快速上架,抢占市场待机;不仅可确保客户服务的效率,也降低了运营成本。

高并发业务快速扩展

通过微服务产品开发互联网金融业务,可提高研发效率,更灵活地响应业务变化,快速迭代创新产品;并针对热点模块进行快速扩展来提高处理能力,轻松应对突发流量,同时提高用户体验,为更多小微客户提供个性化的金融产品和交易成本较低的便捷金融服务。

多数据中心异地多活

通过微服务产品可快速构建可扩展、高性能的金融级分布式核心系统,拥有弹性扩容和异地多活的能力。

任务调度

任务调度(Task Scheduler,简称 TS)提供分布式任务调度框架,实现任务的分布式处理,并能规范化、自动化、可视化和集中化地对金融企业不同业务系统的任务进行统一的调度和全方位的监控运维管理。

产品架构Image 79

产品优势

  • 支持集群任务

    支持对数据进行自定义维度的分片,不限制拆分层数,因此可以充分利用集群的所有机器;当数据量较大时,多层调度任务可以更快地处理完数据,同时支持简单单机任务的运行。

  • 支持任务的图形化依赖编排

    将多个任务按执行的顺序编排成一张拓扑图,自动执行,无需人工干预,从而保证大量任务调度的快速高效的完成。

  • 丰富的任务配置项

    提供丰富的任务配置项,包括多种路由策略、多种失败重试模式、多种漏触发处理策略,并支持在线配置调度任务入参。

  • 灵活的触发控制

    支持任务通过定时触发、周期性触发、事件触发和人工手动触发。

应用场景

金融行业的批处理

该场景需要在规定时间内处理完指定的数据。传统的处理方式是根据数据库分片来处理,每台机器处理一个数据分片。这种方式的缺点就是当业务集群的机器数量大于分片数时,很多机器处于闲置状态,资源利用率低。集群任务允许用户自己对数据进行拆分,将待处理数据拆分成一个个索引块,业务集群中的每台机器都会分配到数据进行处理,使用灵活,并可以监控任务的执行情况。

金融行业的日切

金融行业的日切是一个很复杂的操作,需要多个任务按照指定顺序协同工作才可以完成。传统实现方式是在系统代码里指定任务的执行顺序,当业务发生变化时需要修改代码才可以正常工作,可维护性很差。使用 SOFAStack 任务调度中的任务编排功能,可以轻松完成任务之间的依赖调整,大大提高了可维护性,并可以直观地看到任务的执行情况。

消息队列

SOFAStack 消息队列是基于 Apache RocketMQ 构建的分布式消息中间件,为分布式应用提供异步解耦和削峰填谷的能力,支持多种消息类型,提供高可靠、高吞吐量、高可用、事务一致性的异步通讯能力。

产品架构Image 52

产品优势

  • 开箱即用

    多种消息类型:事务消息、定时消息、顺序消息。

    多种订阅模式:Pub/Sub、Tag 过滤、集群消费、广播消费。

    多协议多语言:TCP/HTTP 协议,多语言客户端 SDK。

  • 便捷运维

    可运维:消息回溯、死信队列、监控告警。

    易诊断:多维度查询、全链路消息轨迹。

    高安全:多租户资源隔离、实例限流、主子账号授权。

  • 高性能

    低延迟:毫秒级端到端延迟。

    抗堆积:海量消息堆积能力。

    高吞吐:千万级高并发处理能力。

    可扩展:可根据业务需求弹性伸缩。

  • 高可用

    高可用:99.9% 服务可用性。

    高可靠:99.99999% 数据可靠性。

    同步机制、重试机制、数据持久化。

应用场景

异步解耦

通过生产消费模型解耦上下游业务系统,可提升业务连续性。上游应用作为生产方,将比较耗时且不需要即时(同步)返回结果的操作作为消息放入消息队列;下游应用作为消费者进行消息订阅和消费。只要保证消息格式不变,消息的发送方和接收方并不需要直接连接,任何一方的系统故障都不会对其他应用产生影响。

分布式事务的数据一致性

应用解耦后还需要确保数据的最终一致性,利用消息队列事务消息和消息的可靠传递机制,可以在实现系统解耦的同时,保证最终的数据一致性。

API 网关

API 网关(API Gateway)是一个 API 管理平台,帮助企业统一管理对内外开放的 API ,为网络隔离的系统间提供高性能、高安全性、高可靠性的通信,同时保障内部系统的安全性;用于满足企业对外部合作伙伴开放业务、企业自身混合云互通、企业内网异构应用集成的需求,帮助客户更好的进行场景和业务的创新。

产品架构39BB07~1

产品优势

  • 跨云/跨域互通

    支持对混合云和多业务域之间的网络互通,实现 API 的统一管理。

  • 弱网优化

    针对移动端的特性,优化弱网下的数据传输通信协议,提高网络通信质量和效率。

  • 异构集成

    支持不同语言和不同技术栈实现的业务系统之间进行无缝集成。

  • 多种客户端接入支持

    支持移动端(iOS,Android),也支持非移动端小程序(H5,Web,后端应用)。

  • 端到端全链路跟踪

    支持从客户端发起的请求到后端服务所有节点的端到端的链路跟踪。

  • 超强的安全能力

    支持多种身份校验和数据加密方式(例如 CORS、SSL),以保障数据传输的安全性。

应用场景

前后端分离场景

  • 统一接入标准:通过 API 网关向客户端提供统一协议的 API,允许 IT 团队选择最适合内部架构的技术栈。

  • 后端异构集成:屏蔽客户端与服务端差异,在不影响外部绑定客户端的情况下重构服务。

  • 降低业务代码复杂性:减少客户端与服务端的直接调用,流量控制、负载均衡等不需要重复实现。

  • 提高研发效率:模拟或虚拟化服务,以验证设计要求或协助集成测试,提高研发效率。

异构系统集成场景

  • 统一集成:降低企业内部系统集成成本,无缝连接不同的软件应用程序。

  • 遗留系统兼容: 选择最适合技术栈,在转型过程中兼容遗留系统,加速企业转型升级。

  • 集中管理:集中访问所有数据,提高研发效率。

混合云场景

  • API 全生命周期管理:云间网络互通的基础上提供 API 全生命周期管理,避免所有 API 都对外暴露,提高安全性。

  • 高性能跨云 RPC 调用:支持跨云的场景下的 RPC 调用,使用方式同云内调用。

  • 超强安全保障能力:提供多种安全能力确保访问的合法性以及数据安全性。

分布式事务

分布式事务(Distributed Transaction-eXtended,简称 DTX)是一款金融级分布式事务中间件,用来保障在大规模分布式环境下业务活动的最终一致性。在蚂蚁集团内部被广泛地应用于交易、转账、红包等核心资金链路,服务于亿级用户的资金操作。分布式事务可以与服务框架(如 SOFABoot、Spring Cloud、Dubbo)、数据源(如数据访问代理 ODP、RDS、MySQL、OceanBase)、以及消息队列等中间件产品配合使用,轻松实现服务链路级事务、跨库事务和消息事务等各种组合。

产品架构Image 72

产品优势

  • 支持多种接入模式

    SOFAStack 分布式事务随着业务的多样性发展而演变沉淀了多种接入模式,针对科技金融下多种业务场景灵活适配。

  • TCC 模式:TCC(Try-Confirm-Cancel)是一种高性能的分布式事务接入方案,该模式提供了更多的灵活性,几乎可满足任何您能想到的事务场景。TCC 模式提供自定义补偿型事务、自定义资源预留型事务、消息事务等场景,用户可以介入两阶段提交的过程,以达到特殊场景下的自定义优化及特殊功能的实现。

  • FMT 模式:为了解决 TCC 模式的易用性问题,分布式事务推出了框架管理事务模式(Framework-Managed Transactions,简称 FMT)。FMT 是一种无侵入的分布式事务解决方案,该模式解决了分布式事务的易用性问题,最大的特点是易于使用、快速接入以及对业务代码无侵入。

  • Saga 模式:Saga 是一种补偿协议,在 Saga 模式下,分布式事务内有多个参与者,每一个参与者都是一个冲正补偿服务,需要用户根据业务场景实现其正向操作和逆向回滚操作。

  • 金融级品质的保障

  • 金融级容灾保障:提供同城以及异地等多种模式以及多种级别的容灾能力,以业界最高规格的标准来保障客户业务的连续性。

  • 无与伦比的性能:相比传统二阶段模式,减少持有锁时间,大幅提升性能。特有的性能推进模式(Performance Bursting Mode)可以大幅提升吞吐量,曾在 2019 年双十一活动中支撑 54.4 万笔/秒的交易操作。

  • 使用简洁易于接入:蚂蚁金融科技(蚂蚁集团)多年沉淀的实操经验使产品具备了快速灵活的接入能力,易于使用与运维。

  • 兼容性保障:分布式事务是一个抽象的基于 Service 层的概念,与底层事务实现无关,也就是说在分布式事务的范围内,无论是关系型数据库 MySQL、Oracle,还是 KV 存储 MemCache,或是列存数据库 HBase,只要将对它们的操作包装成分布式事务的参与者,就可以接入到分布式事务中。

应用场景

支付与转账

金融行业常见的支付、转账、账务等业务场景对于吞吐量有很高的要求。SOFAStack 分布式事务在各类大促中的优异表现证明了性能不会成为瓶颈。

财富理财

这类场景中往往涉及的金额较大,所以对于产品的稳定性要求非常高。SOFAStack 分布式事务拥有金融级的品质,可为业务的持续性与稳定性保驾护航。

保险与监管报送

参与方多、业务复杂度高是该类业务的典型特征。SOFAStack 分布式事务历经十多年的演进历程,足以灵活应对各种场景,满足事务一致性要求,保证与各类业务完美结合。

数据访问代理

数据访问代理(Open Database Proxy,简称 ODP)能够解决海量请求下的数据访问瓶颈和数据库的容灾问题,提供水平拆分、平滑扩缩容、读写分离的在线分布式数据库服务,为海量数据访问提供低消耗、高性能、高可用的轻量级解决方案。

产品架构

E3DFC7~1

产品优势

  • 分库分表

    支持 RDS/OceanBase/MySQL 的分库分表。在创建分布式数据库后,只需选择拆分键,数据访问代理就可以按照拆分键生成拆分规则,实现数据水平拆分。

  • 透明读写分离

    通过使用数据访问代理的只读实例或 MySQL 备机实现读写分离,帮助应用解决事务、只读实例或者备机失效、指定主备访问等细节问题。对应用无侵入,在数据访问代理控制台即可完成读写分离相关操作。

  • 数据存储平滑扩容

    当出现数据存储容量和访问量瓶颈时,数据访问代理支持在线存储容量扩展;扩容无需应用改造,扩容进度支持可视化跟踪。

  • 服务升降配

    数据访问代理实例可以通过改变资源数量实现服务能力的弹性扩展。

  • 全局唯一数字序列

    数据访问代理支持分布式全局唯一且有序递增的数字序列,满足业务在使用分布式数据库下对主键或唯一键以及特定场景的需求。

  • 数据库账号权限体系

    数据访问代理支持类单机 MySQL 账号和权限体系,确保不同角色使用的账号操作安全。

  • 分布式事务支持

    数据访问代理结合中间件分布式事务套件,可以支持分布式事务,保证分布式数据库数据一致性。

应用场景

海量数据读写

提供灵活的数据拆分机制,代码侵入性低,可以非常方便地实现数据的水平拆分与扩容,从而解决数据库单机瓶颈的问题。

金融级数据容灾

基于蚂蚁集团内部多年的金融级数据容灾场景,针对不同业务场景提供了多种机房级数据容灾解决方案,保障数据的稳定性与业务的连续性。

数据库流量分配

提供了基于规则的流量分发机制,通过部署多个数据库实例(如一写多读)的方式来满足大量查询业务的需求。

分布式链路跟踪

分布式链路跟踪(Distributed System Tracing,简称 DST)是一款面向分布式架构、微服务架构和云原生架构的应用可观察性的金融级解决方案,帮助用户厘清应用间复杂的调用关系,迅速定位故障或者缓慢节点。

产品架构

1EC884~1

产品优势

  • 分布式跨应用追踪

    追踪每个交易的完整链路,按不同服务(应用)接口建立调用时间序列,收集链路上每个服务的性能数据,按服务追踪交易性能问题。

  • 多维度链路查询

    根据 Trace ID 按不同条件(错误、超时等)检索调用链,分析链路信息,查询各场景下的调用链集合。

  • 多视角链路展示

    提供链路图、链路详情、时序图、时间轴等,全方位可视化地展示系统性能。

  • 业务日志关联查询

    自定义配置应用系统的业务日志,自动关联业务报错和摘要信息,快速定位问题及跟踪业务信息。

应用场景

问题的分析和快速定位

在分布式场景下,服务调用错综复杂,问题分析与定位非常困难。分布式链路跟踪系统能迅速定位到有问题的服务,协助快速解决问题。

  • 查看完整的应用调用拓扑关系:自动发现该服务之前的调用以及对所有中间件的调用,绘制整个系统的完整调用拓扑关系。

  • 快速定位不健康应用:在调用关系拓扑中,对不健康应用进行显示标识,便于快速发现有问题应用并进行分析。

  • 分析服务性能:调用拓扑中的应用都可以单独进行下钻分析,可以从吞吐、错误率、响应时间等指标对应用性能进行详细分析。

应用性能和架构的优化

在调用关系拓扑中能对各个应用的调用次数和耗时情况进行查看和分析,找到负载较高和负载较少的应用,对资源进行一个合理的利用。

  • 汇总聚合调用链路:所有的调用信息会被聚合汇总,方便对各个应用的调用情况和响应情况进行分析。

  • 定位关键路径:快速发现整个系统调用拓扑中的关键应用路径。

  • 优化不合理调用:及时发现某些不合理的调用并进行处理,如频繁进行数据库操作等。

运维管理

SOFAStack CAFE(Cloud Application Fabric Engine)云应用引擎,提供应用管理、发布部署、运维编排、监控分析、容灾应急等全生命周期管理的 PaaS 平台产品,满足金融场景中经典架构和云原生架构的运维需求,帮助传统架构平滑过渡,保障金融技术风险。Image 73

应用场景

统一的应用运行平台

通过平台来解决大规模运维中发布、监控和审计的难题,并集成云原生的各种功能,例如容器、Serverless 和 Mesh 等,来提高运维效率。

金融级高可用架构平台支撑

提供同城双活、单元化、异地多活的 PaaS 平台支撑。

经典架构向云原生架构升级

满足金融基础架构向从容器到云原生容器化的落地路径,降低向新兴架构和运维模式的转型技术风险。

单元化应用服务

单元化应用服务(LDC Hybrid Cloud,简称 LHC)在云原生基础设施之上,在多机房、多地域的 Kubernetes 多集群场景,提供应用管理、发布运维、流量调拨、配置同步等能力。LHC 旨在提供从单 Kubernetes 集群向多活联邦集群演进的能力,提供具备容灾能力的同城双活、 两地三中心及更多机房级多活容灾场景。并可以配合 SOFAStack 各中间件产品、OceanBase 分布式数据库,形成单元化异地多活架构解决方案。

产品架构

Image 74

产品优势

  • 金融级发布

    发布过程安全可靠,可重试,可灰度,可回滚,可溯源。

    支持虚拟机和容器的混合发布,提供从虚拟机到容器的过渡方案。

  • 运行时监控

    业务自定义大盘随时关注业务动态。

    实时监控应用基础指标,如 PV、Service(应用服务被调用)、SAL(调用外部服务)等。

    全面收集基础资源指标,如 CPU、内存、IO 流量等。

  • 微服务框架

    深度集成蚂蚁 SOFA Mesh 做异构语言的服务注册发现及通信。

  • 网络模式

    支持 VPC 和 Overlay 两种网络模式。

    支持负载均衡类型的 Service 和 Ingress。

  • 高可用和容灾

    支持同城双活、两地三中心容灾方案。

    支持升级至蚂蚁集团沉淀多年的单元化高可用容灾方案。

应用场景

LHC 服务于云原生模式下,通过一套应用 PaaS 平台,提供统一的应用、资源管理,以及发布运维视图,实现多集群管理、跨集群应用运维发布、资源管理、流量管理。

同城双活(active-active)

在同一个地域 Region,建立两个或更多可用区下的多个 Kubernetes 集群。

两地三中心

  • 在同城双活的基础上,增加一个异地机房,做数据和应用备份。根据网络延时和带宽情况,可选择异地热备、温备和冷备三种方案。

  • 在异地存在延迟的情况下、业务可接受的范围内,可以选择异地热备。正常情况下访问同城双活测,在容灾期间切至异地灾备机房,提供业务访问。

异地多活(Multi-region active-active)

数据层做分片(Sharding),不同的 AZ 可以划分为更多的逻辑单元(Logic Data Center),处理不同的数据分片。 尽量保证数据访问的链路从接入层到应用层再到数据层不会出现跨可用区的调用。这种架构下,可以做到任意数量地域的多活。

异构基础设施下的混合云

通过 Kubernetes 屏蔽掉底层 IaaS 的差异性,可充分利用公有云上的资源,将业务同时在专有云和公有云上进行部署,并进行统一运维管控。在该场景下,可以帮助金融客户达到以下目的:

  • 减少开发、测试资源的投入:专有云部署生产应用,公有云按需部署开发测试应用。

  • 线下快速容灾需求:应国家监管需求,需要在线下部署一套环境,以应对公有云上的突发情况,客户案例如天弘余额宝)

  • 弹性扩容:结合异地多活架构,使业务能够按需进行机房级的无限水平扩展。

经典应用服务

经典应用服务(Classic Application Service,简称 CAS)以应用为核心视图,对应用的版本、发布包、资源等进行可视化、自动化管理。经典应用服务提供自动化、智能化的应用全生命周期 DevOps 支持,提升效率、降低成本、减少人为错误,让开发人员专注于业务逻辑本身。

产品架构93A798~1

产品优势

  • 以应用为核心视角的 DevOps

    提供应用全生命周期的 DevOps 自动化支持,将传统的以 IT 资源为核心的管理视角转换成以应用、业务为核心视角,使用户可以专注于业务价值的同时,提升研发效率、降低人为出错的可能。

  • 可定制的自动化运维

    以自定义的技术栈方案,为用户提供可定制的自动化运维,提升了云平台的灵活性和对用户存量系统的兼容支持性,方便用户在平台上使用自己熟悉的、非 SOFAStack 原生提供的技术框架。

  • 强大的发布部署能力

    提供分组发布、Beta 发布、灰度发布、单机房发布、蓝绿发布等多种灵活的部署策略,从各种需求层面,支持可视化、自动化、可重试、可回滚的发布部署。

  • 灵活的运维管道能力

    提供录入,执行用户自定义的运维命令和脚本通道,方便用户做自定义的运维指令操作。

应用场景

传统运维能力支持

传统企业的大部分核心业务仍然未进行容器化,仍然使用传统代码包的方式进行虚拟机/物理机发布,CAS 支持传统运维方式向容器化运维平滑演进。

解耦 IaaS 与 PaaS

在经典运维场景,CAS 也支持阿里云的 IaaS 以及华为云的 IaaS 场景,后续的其他供应商 IaaS 正在持续集成适配中。让用户可以无需对底座有强依赖关系,真正做到 IaaS 与 PaaS 的解耦。

CICD 的集成

提供全面的应用生命周期 API,供上游 CI 平台进行集成,形成 CICD 闭环。

容器应用服务

容器应用服务(Application Kubernetes Service,简称 AKS)全面集成 Kubernetes,提供完整的集群管控、认证授权、容器网络、持久卷存储等方面的平台能力。在兼顾标准化一致性的 Kubernetes 能力的同时,亦将源自实践的应用全生命周期的发布部署能力通过产品化的形式交付

产品架构03997B~1

产品优势

  • 金融级发布

    发布过程安全可靠,可重试,可灰度,可回滚,可溯源。

    支持虚拟机和容器的混合发布,提供从虚拟机到容器的过渡方案。

  • 运行时监控

    业务自定义大盘随时关注业务动态。

    实时监控应用基础指标,如 PV、Service(应用服务被调用)、SAL(调用外部服务)等。

    全面收集基础资源指标,如 CPU、内存、IO 流量等。

  • 微服务框架

    深度集成蚂蚁 SOFA Mesh 做异构语言的服务注册发现及通信。

    支持原生部署 Istio 做 Service Mesh 提供微服务能力。

  • 网络模式

    支持 VPC 和经典网络两种网络模式。

  • 高可用和容灾

    支持经典的同城双活、两地三中心容灾方案。

    支持阿里云沉淀多年的单元化高可用容灾方案。

应用场景

使用 SOFA 技术栈的传统研发运维体系

这类体系的应用使用 SOFABoot 进行开发或直接使用 SOFA Mesh,系统间关系复杂,有依赖关系,并且深度使用了 SOFAStack 产品,需要和现有 PaaS 的发布部署能力做无缝对接:

  • 多应用同时发布运维,可做应用分组、应用依赖关系调整等高阶发布运维能力。

  • 需要蓝绿发布,单元化发布能力。

说明

该场景下,您需在 AKS 中创建应用服务,使用 SOFABoot 运行时镜像作为基础镜像构建应用镜像,以原地升级方式进行发布单级别的部署,就可使应用服务在 AKS 上运行,与虚拟机提供的服务进行交互,并与现有 SOFAStack 产品做无缝对接。

使用 SOFA 技术栈的轻量级研发运维体系

这类体系的应用使用 SOFABoot 进行开发或者使用 SOFA Mesh,和 SOFAStack 产品有紧密结合。这类应用的特点为:

  • 不需要多应用同时发布,即应用可以进行独立发布。

  • 需要做无损发布。

  • 没有历史包袱,可接受 CloudNative 方式运维。

说明

该场景下,您只需在 AKS 中创建应用服务,使用 SOFABoot 运行时镜像作为基础镜像构建应用镜像,以原地升级方式进行部署管理,即可使应用服务在 AKS 上运行,并和现有 SOFAStack 产品无缝对接。

使用云原生技术体系

这类体系的应用通常采用传统 Spring 或者 SpringBoot 技术栈,配合 Eureka,ZooKeeper 做服务注册与发现,并配套 CNCF 生态的监控,链路工具,自成一体。这类的应用的特点为:

  • 业务对错误容忍性高,或非关键链路系统。

  • 进行独立发布。

  • 没有历史包袱,可接受 CloudNative 方式运维。

  • 不需要和 SOFAStack 产品结合,比如监控、弹性伸缩、容灾、中间件等。

说明

该场景下,您只需在 AKS 中创建应用服务,使用 SOFABoot 运行时镜像作为基础镜像构建应用镜像,以原地升级方式进行部署管理,即可使应用服务在 AKS 上运行,并和现有 SOFAStack 产品无缝对接。

业务实时监控

实时监控服务(Real-time Monitoring Service,简称 RMS)是一款具有可视化监测能力的金融级监控产品。

基于日志、指标、链路等海量数据进行多维聚合,向用户提供业务监控、应用监控、云原生监控、基础资源监控、日志查询分析、分布式链路等多角度的可视化监测功能,有丰富的可视化大盘,并提供了告警订阅功能。

该服务可以帮助运维、研发、SRE (Site Reliability Engineer)等快速地发现问题、定位问题、分析问题、解决问题,为线上系统可用率提供有效保障。

经过蚂蚁场景历练,为大规模和复杂业务场景提供全方位的可观测性和洞察分析能力。

产品架构Image 75

产品优势

  • 全方位实时监控

    提供业务、应用、基础资源、云原生等各种视角的监控能力,可实现关键指标秒级、普通指标分钟级的监控,具有高可靠、高时效、低延迟的特点。

  • 灵活的报警规则

    可根据业务特征、时间段、重要程度等维度设置报警规则,实现不误报、不漏报。

  • 便捷的自定义配置

    具有丰富的自定义产品配置功能,可便捷、高效地进行产品、报警配置。

  • 开放的技术栈配置

    可实现 Kubernetes、SOFA 技术栈应用部署即监控,通过简单技术栈配置,即可接入并监控非标业务应用。

  • 可视化大盘

    丰富的可视化大盘,帮助您定制个性化的监控大盘。

  • 分布式链路

    提供应用拓扑和链路查询功能,观测应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志,从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障定责等运维开发工作。

  • 日志查询和日志关联

    提供日志查询和日志关联功能。用户不仅可以对日志执行查询操作,还可以进行历史查询和上下文查询,以及查看 Error 指标关联的错误日志和链路关联业务日志,更加方便高效地进行问题分析定位。

  • 低资源占用

    在可靠传输大量监控数据时,保证对宿主机的 CPU、内存等资源的极低占用率。

  • 高可用

    提供万台设备的分钟级监控部署能力,故障自动恢复,集群可伸缩。

  • 稳定高效的时序和数据存储

    在线持续聚合数据,保证数据容量可控,提供智能分级存储、存放策略。

应用场景

立体化运维

深度对接 Kubernetes、SOFA 等技术栈应用服务,一站式收集基础设施、中间件、应用运行时数据和业务数据,通过指标监控、日志分析、链路追踪、告警订阅等功能,对应用性能、运行状态和资源使用等提供立体化运维分析,及时发现并定位应用、资源及平台的问题。

  • 一站式分析:在应用总览中可查看应用错误指标趋势、应用链路、应用指标和系统指标等,提供一站式的应用分析能力。

  • 全方位监控:覆盖基础设施、云数据库、云中间件、应用等多个维度监控,提供一站式运维能力。

  • 故障关联分析:以应用为中心,覆盖组件、实例、主机、云资源等多维度关联分析,迅速找到异常故障点。

问题分析与快速定位

在分布式场景下,服务调用错综复杂,问题分析与定位非常困难,分布式链路跟踪系统能迅速定位到有问题的服务,协助快速解决问题节点。

  • 完整的应用调用拓扑关系:自动发现该服务的历史调用,以及对所有中间件的调用,绘制整个系统调用关系的拓扑图。

  • 快速定位不健康应用:在调用关系拓扑中,对不健康应用进行显式标识,便于快速发现有问题应用并进行分析。

  • 服务性能详情:调用拓扑中的应用都可以单独进行下钻分析,可以从吞吐量、错误率、响应时间等指标出发,对应用性能进行详细分析。

应用性能优化

在调用关系拓扑中,可以对各个应用的调用次数以及耗时情况进行分析,找到负载较高以及负载较少的应用,从而对资源进行合理利用。

  • 调用链路聚合汇总:对所有的调用信息进行聚合汇总,对各个应用的调用情况以及响应情况进行分析。

  • 关键路径:快速发现整个系统调用拓扑中,关键应用的路径。

  • 优化不合理调用:及时发现某些不合理的调用并进行处理,如频繁进行数据库操作等。

高阶运维

TRaaS 技术风险防控平台,是以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托,形成的解决用户上云和分布式改造过程中,可观测、故障应急、容灾、混沌工程、资金安全、压测等运维问题的平台产品。

9C43C6~1

高可用管理平台

高可用管理平台(High Availability Service,HAS)是以容灾为主的高可用管控平台产品,可实现容灾方案的端到端整体能力,从客户业务到中间件、PaaS 以及 IaaS 整体的容灾切换及恢复、容灾规划、容灾模拟演练等能力,并包含整体机房及容灾状态的监控能力、容灾大盘展示、环境巡检、风险应急等。

HAS 提供容灾服务视图、预案编排能力、切换和恢复能力,支持多机房部署架构下的机房级别一键容灾切换和恢复。

产品架构

BB2DA5~1

产品优势

  • 蚂蚁技术风险管理体系方法论+平台工具完整落地

    通过高可用管理平台工具,可以输出蚂蚁多年积累点的技术风险防控内容,并在此基础上助力用户建设符合用户实际情况的技术风险防控体系,提升用户整体技术风险防控水平。

  • 技术风险防控效率有效提升

    通过高可用管理平台技术风险防控能力,自动化、标准化、例行化日常运维,降低操作复杂度,运维结果清晰可见,实现风险事件的闭环管理。

    • 通过日常巡检主动感知业务运行风险,在对业务造成影响前及时处理。

    • 自动化故障诊断和标准化应急预案快速定位并恢复故障,减少因故障引起的业务中断时间。

    • 故障演练主动检验应用高可用能力。

    • 支持蚂蚁产品双中心容灾切换,满足监管合规需求。

  • 技术风险防控内容库快速更新

    阿里云、蚂蚁技术风险团队基于域内、域外技术风险防控经验,共建日常巡检、故障诊断、应急预案内容库,用户可享受最新的技术风险防控内容。

  • 金融级容灾

    容灾等级最高可达 5 级。

    容灾能力丰富,支持容灾大屏监控告警、容灾仿真演练、容灾巡检等能力。

    经过支付宝和网商银行规模验证。

  • 全链路容灾

    支持从客户应用到中枢态的全链路容灾能力,实现端到端整体容灾,全链路监控和运维,无需多平台对接。包含用户应用、中间件、PaaS、IaaS 全链路多层容灾。

  • 多场景容灾

    支持金融行业的全部容灾场景:

    • 同城双活

    • 异地主备

    • 两地三中心

    • LDC 单元化

应用场景

日常风险防控

在日常的运维场景中,通过多功能模块的联动使用,自动化执行日常运维脚本,实现定期可控的日常巡检运维;同时不断更新优化日常巡检、故障诊断、应急预案等内容的建设,不断丰富和完善应用技术风险防控体系,简化日常应用运维操作。

故障演练

为不断提升产品高可用能力,通过高可用管理平台的故障演练模块,设计并规划演练计划和恢复方案,继而在演练过程中不断发现、解决容灾预案存在的问题。以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。

机房级容灾

  • 同城双活:同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当一个机房故障,不影响另外一个机房业务使用。

  • 异地主备:满足容灾需求,两地不同城市分别建设两个机房,一主一备,两地距离超过 1000 km,主机房承载业务流量,备机房无业务流量,只做备用机房使用。当主机房故障,可以切换流量到备机房快速恢复业务,等主机房故障恢复以后,再回切流量到主机房。

  • 两地三中心:两地三中心,也称为同城双活加异地主备方案,即上文提及的同城两机房做双活部署,外加一个异地机房只做备份,不承载任何业务流量,基本只做冷备数据使用。最大程度地保障了数据的高可用备份。

  • LDC 单元化(异地多活):LDC 单元化架构是可以实现异地多活和高并发场景的架构体系,LDC(Logic Data Center)逻辑数据中心是相对于传统的 IDC(Internet Data Center)提出的。逻辑数据中心所表达的中心思想是无论物理结构如何的分布,整个数据中心在逻辑上是协同和统一的。主要适用于大型互联网公司在线交易系统支持,比如淘宝、支付宝、携程等。

全链路压测

全链路压测(Loadcenter)为企业提供涵盖性能压测、压测报告输出以及压测风险防控的一站式压测服务。结合蚂蚁集团多年的线上全链路压测经验,为您提供高仿真、低成本、高风险识别的在线压测体验。

产品架构Image 47

产品优势

  • 复杂的场景建模能力

    支持多种流量模型,可快速导入配置流量。

    支持模板化脚本及自定义开发脚本,满足不同复杂度的业务场景压测需求。

  • 强大的报告分析能力

    压测记录存档、集中管理。

    结合实时监控服务,压测结果中记录标准应用监控数据及业务自定义监控数据,可快捷地找出存在瓶颈的应用及相关性能指标。

    报告对比分析,追踪应用性能基线演进。

  • 稳定的压力输出能力

    压力机横向扩容,秒级动态调整压力,可满足千万级 TPS 压测需求。

  • 支持内网接口压测

    压力机资源池支持公有和租户私有两种模式。公有模式下,您无需自备压力机,可随时执行压测;私有模式下,使用您的压力机,可节省带宽成本并降低网络延时,同时支持内部接口级测试,无需暴露在公网,更安全。

  • 支持多种协议

    支持常规的 HTTP/HTTPS 及 SOFARPC 协议。

    提供基于 Java 语言的自定义开发脚本模式,可自行扩展私有协议。

  • 可靠的生产压测风险防控能力

    与多个金融科技产品打通,整合应用监控、业务监控以及运维能力,发现风险可自动停止压测。

    结合金融科技 SOFA 中间件产品,使用影子全链路压测方案,可进行压测流量和正常流量的隔离,让您可以在生产环境进行压测。

应用场景

全链路压测适用于任何有压测或者模拟流量需求的应用场景。

新系统上线测试

新系统上线前,根据预期的业务模型对系统进行压力和负载测试,测试系统是否存在性能问题以及预期容量是否能够应对上线后的业务压力。

原系统基线回归

定期对线上系统进行恒定场景的性能回归,观察系统的性能是否存在变化,及时发现迭代、技术升级带来的系统性能衰减。

系统容量评估

在开展运营活动之前,对系统容量进行压测评估,根据业务场景持续加压,评估系统容量水位,以便提前进行优化和扩容,如有限流措施,也可以通过压测来进行验证。

系统故障演练

利用持续的压测流量来验证系统异常时业务是否会受到影响。可以利用压测流量配合故障注入演练、机房容灾演练,观察业务影响程度以及恢复能力。

资金安全监控

资金安全监控平台是一个通过旁路方式,对业务流程中资金流向进行实时分析和实时告警、从技术上保障资金安全的实时核对平台,旨在保障资金在流经业务系统时,不会出现资金流失的问题。

产品架构Image 76

产品优势

  • 对生产系统无侵入,旁路采集核对数据。

  • 规则可配置,无需编码;规则随时可以新增或修改,满足多种核对需求。

  • 支持实时、准实时、T+1、T+H 等多种不同核对时效,满足您对于资损风险监控时效性的不同需求。

  • 管理功能丰富,提供核对大盘、覆盖率度量等管控能力。

  • 支持短信、邮件、钉钉等通知渠道,可为核心业务提供即时监控、即时应急保障。

  • 提供资损风险监控覆盖的度量功能,并配备专家咨询服务,将多年积累的资损防控经验带给云上用户。

应用场景

业务护航

帮助您阶段性地或定期梳理涉及资金链路的核心业务——通过配置核对规则,对各类数据作相互核对,或对数据内容作逻辑检查,确保核心业务运行无误。

变更风险检查

变更发布前,添加变更业务表与关联表的核对规则,或者变更业务表数据的检查规则,确保变更上线后不存在资损风险监控盲点。

历史数据扫雷

批量检查存量业务的历史数据是否已存在差异,及时分析差异原因并修复漏洞,追回资损。

数据质量监控

数据缺漏也可能间接引发资损。您可以配置核对规则来检查数据完整性,对数据质量进行监控,及时发现故障。