本文介绍产品常用功能。在使用本产品之前,建议您先了解功能架构、基本概念等,以便更好地理解平台提供的功能。
风险发现
系统提供风险发现相关功能项如下:
功能分类 | 功能名称 | 功能说明 |
监控 | 业务监控 |
|
应用监控 |
| |
主机监控 | 支持对物理机和虚拟机的监控,比如系统指标、端口探测等。 | |
云原生监控 |
| |
Prometheus 监控 | 支持采集符合 Open-Metrics 的 Prometheus 指标,作为统一标准格式存储为时序数据,并提供可视化大盘配置。 | |
蚂蚁产品监控 | 原生采集 SOFA 框架日志的监控指标,默认提供对蚂蚁各产品的监控和告警能力。 | |
自监控 | 提供对平台自身组件可用性的监控告警和巡检能力,以及支持部署 RMS- SM 实现对平台整体监控。 | |
监控 | 应用一站式分析 |
|
告警 | 告警规则 | 支持灵活的为监控对象配置告警规则。 当规则条件被触发时,系统将产生告警事件,例如为告警规则订阅通知对象,系统将为通知对象发送告警消息,以提醒用户采取必要的问题解决措施。 |
告警 | 告警模版 | 支持批量创建告警,提高配置告警规则的效率。 |
告警规则 | 支持灵活的为监控对象配置告警规则。 当规则条件被触发时,系统将产生告警事件,例如为告警规则订阅通知对象,系统将为通知对象发送告警消息,以提醒用户采取必要的问题解决措施。 | |
告警事件 | 告警事件是一次告警产生到恢复的全生命周期管理,具有唯一事件 ID。 当规则被触发后,产生告警,在恢复之前,所有产生的告警都属于这一事件。 | |
告警恢复 | 告警防抖机制,告警规则只有连续 N 个检测周期都触发,会产生一个告警记录,当告警规则在连续 N 个检测周期都不触发,会产生一个告警恢复记录。 | |
告警静默 | 若告警规则一直处于触发状态,首次触发告警后,静默期后才会发送第二次告警信息。若据恢复正常,会收到数据恢复通知并解除告警。若数据再次触发告警, 则会再次发送告警信息。 | |
告警暂停/开启 | 由于某些暂定原因需对规则暂停告警,暂停期内将不会进行检测和产生告警。 | |
配置模版 | 配置模版 | 提供监控配置模板功能,支持将应用和自定义监控告警以配置模板(JSON 文件)导出,然后一键导入其他环境。 如该环境已部署同名应用,则监控告警配置即生效,帮助投产运维更加高效便捷和一致。 |
风险定位
系统提供的风险定位相关功能项如下:
功能分类 | 功能名称 | 功能说明 |
链路追踪 | 全局应用拓扑 | 持续自动发现整个应用间调用,以及对中间件的依赖调用架构关系,绘制完整的全局拓扑,并在拓扑中展示节点和连线异常状态,帮助用户更快感知到故障问题。 |
应用下钻和性能分析 | 支持基于应用 >上下游应用 > 接口等逐层下钻分析,并展现其黄金性能指标(比如吞吐量、平均响应时、错误率、满意度等),建立由底层到上层间的数据关联信息,从而深度分析分布式场景下的影响应用性能的问题根因。 | |
多维链路查询 | 支持按照多维业务条件检索调用链,包括 RPC、MVC、REST、DB 等不同类型调用方式,可实现按照各场景自定义 Tag(比如交易号)查询对应的调用链路集合。 | |
链路详情 | 提供系统间调用的链路图、链路详情、时序图等,清晰全方位的展现系统间调用的交互、性能和异常信息。 | |
兼容 Open-telementry | 原生与 SOFAStack 上的应用进行无缝对接,用户的业务代码无需任何修改即可轻松接入,也支持接收 zipkin、skywalking 等符合 Open-Tracing 的链路数据,统一生成应用拓扑和链路追踪。 | |
链路追踪 | 链路日志关联 | 支持接入多类型日志数据源,将链路和业务日志进行关联,增强链路上的业务信息。 |
日志 | 日志查询 | 支持精确查询、模糊查询、全文查询和关键字段查询,以及日志上下文查询。 |
LiveTail | 在线上运维场景中,经常需要对日志队列中的数据进行实时监控,从最新的日志数据中提取出关键信息,以便快速分析出异常原因。 提供日志数据实时监控的交互功能 LiveTail,针对线上日志进行实时监控分析,减轻运维压力。 | |
日志快照 | 支持将常用查询保存为快捷历史,一键将查询历史条件导入再次查询。 | |
日志下载 | 支持选择一段时间范围的日志按 CSV、TXT 等格式下载导出。 | |
日志采集 | 提供对容器应用和经典应用的日志采集,通过采集配置来设置日志内容黑名单或白名单等,按照设定的采集配置来采集和加工日志内容。 | |
日志转储 | 持久化日志服务支持日志转储功能。 如需存储长时间日志或者日志备份,则需要将日志进行转储的对象存储或落盘。 | |
索引管理 | 提供对应用的索引存储的全生命周期管理,帮助用户更好地运维日志的存储,保证日志数据高可用。 按照一个 workspace 一个索引方式进行存储,支持配置存储时间。 | |
多日志数据源 | 提供三种日志数据来源:
|
平台特性
平台特性如下:
低资源占用
在完成大量数据可靠采集和传输的同时,保证对宿主机的 CPU、内存等资源的使用限制和极低占用率。
稳定高效的数据计算和存储
支持分钟级对万台设备的实时监控和在线持续聚合数据,智能分级存储存放策略、时序数据库保证数据容量可控和弹性扩缩平台。
高可用
支持双机房容灾架构,组件多实例运行,数据库多副本同步,并提供自监控、故障自动恢复等能力。
开放自主
所有组件皆为自研可控,并经过大规模生产验证;提供完善的产品功能和数据的 OpenAPI ,更好的和第三方系统集成对接。