功能概览

本文介绍产品常用功能。在使用本产品之前,建议您先了解功能架构、基本概念等,以便更好地理解平台提供的功能。

风险发现

系统提供风险发现相关功能项如下:

功能分类

功能名称

功能说明

监控

业务监控

  • 支持对应用业务日志进行灵活切割。

  • 按业务维度聚合数据,提供一套完整的业务实时分析能力。

  • 主要面向个性化的非标业务监控场景,比如交易量、放贷量等。

  • 实现关键指标秒级、普通指标分钟级等高可靠、低延迟能力。

应用监控

  • 支持对容器应用和经典应用双重监控。

  • 提供对应用从内到外的多维监控,比如服务指标、系统指标、JVM 指标、端口探测等。

  • 按照单实例、机房、单元化等视角对监控指标进行多视角聚合,提供应用可用性观测保证。

主机监控

支持对物理机和虚拟机的监控,比如系统指标、端口探测等。

云原生监控

  • 提供对云原生丰富的监控能力,从 Kubernetes 集群、Kubernetes 组件以及容器运行时等多维度进行监控。

    默认提供云原生最佳监控的可视化面板。

  • 提供多集群、集群、应用等多视角进行对比分析,让运维人员切实感知 PaaS 层稳定性。

Prometheus 监控

支持采集符合 Open-Metrics 的 Prometheus 指标,作为统一标准格式存储为时序数据,并提供可视化大盘配置。

蚂蚁产品监控

原生采集 SOFA 框架日志的监控指标,默认提供对蚂蚁各产品的监控和告警能力。

自监控

提供对平台自身组件可用性的监控告警和巡检能力,以及支持部署 RMS- SM 实现对平台整体监控。

监控

应用一站式分析

  • 基于元数据实现对应用的一站式监控。

  • 提供应用的服务指标、系统指标、JVM 指标和端口探测等多维指标监控。

  • 按单机、机房、单元化等多视角进行聚合,实现从应用 > 服务 > 实例 >主机的上卷下钻的多维关联分析,迅速找到异常故障点。

告警

告警规则

支持灵活的为监控对象配置告警规则。

当规则条件被触发时,系统将产生告警事件,例如为告警规则订阅通知对象,系统将为通知对象发送告警消息,以提醒用户采取必要的问题解决措施。

告警

告警模版

支持批量创建告警,提高配置告警规则的效率。

告警规则

支持灵活的为监控对象配置告警规则。

当规则条件被触发时,系统将产生告警事件,例如为告警规则订阅通知对象,系统将为通知对象发送告警消息,以提醒用户采取必要的问题解决措施。

告警事件

告警事件是一次告警产生到恢复的全生命周期管理,具有唯一事件 ID。

当规则被触发后,产生告警,在恢复之前,所有产生的告警都属于这一事件。

告警恢复

告警防抖机制,告警规则只有连续 N 个检测周期都触发,会产生一个告警记录,当告警规则在连续 N 个检测周期都不触发,会产生一个告警恢复记录。

告警静默

若告警规则一直处于触发状态,首次触发告警后,静默期后才会发送第二次告警信息。若据恢复正常,会收到数据恢复通知并解除告警。若数据再次触发告警, 则会再次发送告警信息。

告警暂停/开启

由于某些暂定原因需对规则暂停告警,暂停期内将不会进行检测和产生告警。

配置模版

配置模版

提供监控配置模板功能,支持将应用和自定义监控告警以配置模板(JSON 文件)导出,然后一键导入其他环境。

如该环境已部署同名应用,则监控告警配置即生效,帮助投产运维更加高效便捷和一致。

风险定位

系统提供的风险定位相关功能项如下:

功能分类

功能名称

功能说明

链路追踪

全局应用拓扑

持续自动发现整个应用间调用,以及对中间件的依赖调用架构关系,绘制完整的全局拓扑,并在拓扑中展示节点和连线异常状态,帮助用户更快感知到故障问题。

应用下钻和性能分析

支持基于应用 >上下游应用 > 接口等逐层下钻分析,并展现其黄金性能指标(比如吞吐量、平均响应时、错误率、满意度等),建立由底层到上层间的数据关联信息,从而深度分析分布式场景下的影响应用性能的问题根因。

多维链路查询

支持按照多维业务条件检索调用链,包括 RPC、MVC、REST、DB 等不同类型调用方式,可实现按照各场景自定义 Tag(比如交易号)查询对应的调用链路集合。

链路详情

提供系统间调用的链路图、链路详情、时序图等,清晰全方位的展现系统间调用的交互、性能和异常信息。

兼容 Open-telementry

原生与 SOFAStack 上的应用进行无缝对接,用户的业务代码无需任何修改即可轻松接入,也支持接收 zipkin、skywalking 等符合 Open-Tracing 的链路数据,统一生成应用拓扑和链路追踪。

链路追踪

链路日志关联

支持接入多类型日志数据源,将链路和业务日志进行关联,增强链路上的业务信息。

日志

日志查询

支持精确查询、模糊查询、全文查询和关键字段查询,以及日志上下文查询。

LiveTail

在线上运维场景中,经常需要对日志队列中的数据进行实时监控,从最新的日志数据中提取出关键信息,以便快速分析出异常原因。

提供日志数据实时监控的交互功能 LiveTail,针对线上日志进行实时监控分析,减轻运维压力。

日志快照

支持将常用查询保存为快捷历史,一键将查询历史条件导入再次查询。

日志下载

支持选择一段时间范围的日志按 CSV、TXT 等格式下载导出。

日志采集

提供对容器应用和经典应用的日志采集,通过采集配置来设置日志内容黑名单或白名单等,按照设定的采集配置来采集和加工日志内容。

日志转储

持久化日志服务支持日志转储功能。

如需存储长时间日志或者日志备份,则需要将日志进行转储的对象存储或落盘。

索引管理

提供对应用的索引存储的全生命周期管理,帮助用户更好地运维日志的存储,保证日志数据高可用。

按照一个 workspace 一个索引方式进行存储,支持配置存储时间。

多日志数据源

提供三种日志数据来源:

  • 实时日志服务:Agent 从主机查询实时数据,既不存储日志,也无法保证日志查询时间,如主机重启,日志将丢失。

  • 持久化日志服务:Agent 从主机查询日志数据,并按照一个应用一个索引方式进行存储,支持配置存储时间。

  • SLS 日志服务RMS 从 SLS 中查询日志,支持查询一段时间范围内的日志。

平台特性

平台特性如下:

  • 低资源占用

    在完成大量数据可靠采集和传输的同时,保证对宿主机的 CPU、内存等资源的使用限制和极低占用率。

  • 稳定高效的数据计算和存储

    支持分钟级对万台设备的实时监控和在线持续聚合数据,智能分级存储存放策略、时序数据库保证数据容量可控和弹性扩缩平台。

  • 高可用

    支持双机房容灾架构,组件多实例运行,数据库多副本同步,并提供自监控、故障自动恢复等能力。

  • 开放自主

    所有组件皆为自研可控,并经过大规模生产验证;提供完善的产品功能和数据的 OpenAPI ,更好的和第三方系统集成对接。