线上故障如何快速排查?

前几天凌晨2点,我又被监控报警给吵醒了。
服务器CPU飙到90%,但是top看了半天也找不到罪魁祸首。
这种时候,就得请出我们运维人员的两大法宝了——strace和ftrace。
说实话,刚开始接触这两个工具的时候,我也是一脸懵逼。
什么系统调用、内核跟踪,听起来就很高大上的样子。
但是用多了你就会发现,这玩意儿简直就是排查问题的神器!今天就跟大家分享一下我这些年用下来的一些心得。
先说说系统调用这个东西你可能会问,系统调用到…。

前几天凌晨2点,我又被监控报警给吵醒了。
服务器CPU飙到90%,但是top看了半天也找不到罪魁祸首。
这种时候,就得请出我们运维人员的两大法宝了——strace和ftrace。
说实话,刚开始接触这两个工具的时候,我也是一脸懵逼。
什么系统调用、内核跟踪,听起来就很高大上的样子。
但是用多了你就会发现,这玩意儿简直就是排查问题的神器!今天就跟大家分享一下我这些年用下来的一些心得。
先说说系统调用这个东西你可能会问,系统调用到…。


选择一个足够先进的格式是非常明智的,否则后患无穷。 TOML...
随便说点 手机码字 底层用的是 radix 这玩意相当于就是...
我真的很想说 我在健身房混迹大半年了 脱了裤子,无论是基因还...
个人觉得,女生穿牛仔裤的形式意义还是大于内容 说白了,就是审...
实际工作中,2020年的时候用 Rust 在 ARM 设备上...
要是出了事,千万不要把为师供出来。 初级手段: 1、趁家里...
我大概能懂这种感觉... 我因为工作原因被逼着用了大半年ru...
******无误(目前作者已删除该***) Windows ...
分类讨论。 第一类:广大平时基本什么都不练的普通人 这类人...
自荐一个数据构建小工具: pydantic-resolve,...
