### 性能指标和工具的联系
同 CPU 性能分析一样,我的经验是两个不同维度出发,整理和记忆:
- 从内存指标出发,更容易把工具和内存的工作原理关联起来
- 从性能工具出发,可以更快地利用工具,找出我们想观察的性能指标。特别是在工具有限的情况下,我们更得充分利用手头的每一个工具,挖掘出更多的问题
为了迅速定位内存问题,我通常会先运行几个覆盖面比较大的性能工具,比如 free、top、vmstat、pidstat 等,具体的分析思路主要有这几步:
- 先用 free 和 top,查看系统整体的内存使用情况
- 再用 vmstat 和 pidstat,查看一段时间的趋势,从而判断出内存问题的类型
- 最后进行详细分析,比如内存分配分析、缓存 / 缓冲区分析、具体进程的内存使用分析等
常见的优化思路有这么几种:
- 最好禁止 Swap。如果必须开启 Swap,降低 swappiness 的值,减少内存回收时 Swap 的使用倾向
- 减少内存的动态分配。比如,可以使用内存池、大页(HugePage)等
- 尽量使用缓存和缓冲区来访问数据。比如,可以使用堆栈明确声明内存空间,来存储需要缓存的数据;或者用 Redis 这类的外部缓存组件,优化数据的访问
- 使用 cgroups 等方式限制进程的内存使用情况。这样,可以确保系统内存不会被异常进程耗尽
- 通过 /proc/pid/oom_adj ,调整核心应用的 oom_score。这样,可以保证即使内存紧张,核心应用也不会被 OOM 杀死