深入字节版atop: 线上系统的性能监控实践

字节跳动技术团队

于 2021-12-17 14:23:55 发布

阅读量9k

点赞数 2

CC 4.0 BY-SA版权

文章标签：大数据数据库 linux java python

本文链接：https://blog.csdn.net/ByteDanceTech/article/details/122007542

背景

atop 是一款开源的单机性能监测工具，支持实时观测的同时、也支持读取历史文件排查问题。另外一个优点是除提供 CPU、MEM、DISK 等全局指标外，还提供进程、线程级别的各项指标监控数据。鉴于 atop 的这些优点，字节跳动基于社区的 atop 进行优化，目前已迭代 3 个版本，稳定运行接近三年。本文将和大家分享字节跳动内部 atop 工具的新特性及使用情况。

传统特性介绍

What - atop 是什么

atop 本身是一个单机性能监测工具，每间隔 interval（实时监控默认间隔是 10s，而后台采集社区默认间隔是 600s，即 10min）时间去采集本机常用的全局指标和进程指标。直接执行atop即可展示，大致分为上下两部分，分别展示全局指标和进程指标。同时支持快捷键切换多种“界面模式”，用于专门查看进程的 CPU、内存、磁盘等指标信息。

直观展示

运行方式

根据用户使用需求，能够以多种形式运行。一种是直接运行 atop 二进制，显示实时数据；一种是以服务形式（systemd 或 SysV Init）部署在物理机、虚拟机或容器里，作为常驻进程，采集数据写入磁盘，以天为分割单位计入不同文件；一种是使用atop -r $atop_log_file按需读取历史数据。是一款少见的能够支持查看详细历史记录的工具，这在定位非实时问题时尤其有帮助。

代码结构

When - 什么时候使用 atop

atop 记录了很多指标，如全局的 CPU、CPL、MEM、DISK、NET、PSI，进程的 PID、PPID、TID、CMD、SYSCPU、USRCPU、CPUNR、RSIZE、PSIZE、RDDSK、WRDSK 等，称得上一个大而全的工具。而 atop 本身占有资源很少，并不会带来额外的性能开销。因此很多场景都可以使用 atop 来查看各种指标，进而帮助用户更好的了解业务进程在操作系统中的呈现。举例如下：

集群

目前上游还不支持 atop 指标在集群粒度的聚合，但字节内部提供 JSON 数据的输出，可通过数据处理一系列流程将隶属同一集群的所有机器的 atop 数据都入库存储（可选择性按时间对数据进行稀释）。并按照业务需求加以展示，如分别对全局常用指标和某类业务（多进程 PID 加以聚合）各项指标绘制成曲线图，用于观测 24h 时间周期内的数据变化；也可以用于统计基础服务的利用率。

单机

在线排查

业务高峰期，如果发现抖动，可直接运行atop综合查看全局指标和进程指标的哪项指标异常，进而定位排查问题。一般来说先观察全局指标来缩小范围，看是 CPU、MEM、磁盘读写、网络中的哪项引发的问题。常见问题有，如果总 CPU 的 sys 态及 user 态飙高、并且只有几个单 CPU 核很高，多半是绑核不均匀引起的；如果 CPL（CPU Load Average）不高但 CPU 的中断 irq 很高，多半是 IO 操作引发的。

历史定位

前文提到过，常用的监控工具中，能够提供详细历史数据并且能高效保存的几乎没有；如果需要存储，需要人工干预、打通整个流程。而 atop 本身提供了日志存储功能，并自带日志压缩机制，尽量确保存储无压力。为保证历史日志不会将系统盘打满，字节开发了定制化存储位置和存储天数的功能，将在下文详细说明。

功能上线

atop 有个 interval 参数，可通过配置，来定制化数据采集的间隔，如 10s、甚至 1s。如果业务有新功能上线，想自测新功能对系统带来的影响，可以将 interval 设置成 1 秒，实时观测各指标的动态变化。

性能优化

atop 提供细粒度的进程态各项指标值的展示，在业务调优过程中，可参考进程态的数据变化来衡量调优是否符合预期。

告警