Aujourd’hui, on va causer d’un sujet qui nous tient tous à cœur (du moins je l’espère 😅) : les outils de crise sous Linux ! Parce que quand ça part en sucette et que les serveurs rament, pas question de perdre un temps précieux. C’est que souvent, quand la caca-strophe pointe le bout de son nez, vous vous rendez compte que vous n’avez pas les bons outils installés. Et là, c’est le drame… SSH qui rame, les serveurs qui répondent plus, les paquets qui veulent pas s’installer, le firewall qui fait des siennes… Un vrai calvaire !
Alors, quels sont ces fameux outils qu’il est impératif d’avoir sous la main quand le caca touche le ventilo ? Je dirais que y a déjà les classiques comme ps
, vmstat
, top
et compagnie pour avoir un aperçu rapide de ce qui cloche. Rien que ça, ça peut déjà vous sauver les miches.
Mais si vous voulez jouer dans la cour des grands, va falloir sortir l’artillerie lourde. Je parle bien sûr des outils de tracing comme perf
, bpftrace
, opensnoop
, execsnoop
et toute la clique. Ça vous permettra de tracer en live ce qui se passe sur votre système, de débusquer les coupables et de mettre fin au carnage. Le top du top !
Voici comment procéder à grand coups d’apt install…
Étape 1 : Installer les packages de base
- procps : fournit ps, vmstat, uptime, top pour les stats de base
- util-linux : dmesg, lsblk, lscpu pour les logs systèmes et infos matérielles
- sysstat : iostat, mpstat, pidstat, sar pour les stats disques/CPU
- iproute2 : ip, ss, nstat, tc, les outils réseau recommandés
- numactl : numastat pour les stats NUMA
Commande : sudo apt install procps util-linux sysstat iproute2 numactl
Étape 2 : Ajouter les outils réseaux
- tcpdump : sniffer réseau
- nicstat : stats interfaces réseau
- ethtool : infos interfaces
Commande : sudo apt install tcpdump nicstat ethtool
Étape 3 : Outils de profilage et de traçage
- linux-tools-common et linux-tools-$(uname -r) : perf, turbostat
- bpfcc-tools (ou bcc) : une suite d’outils eBPF puissants
- bpftrace : un outil de scripting eBPF dynamique
- trace-cmd : outil en ligne de commande pour ftrace
Commande : sudo apt install linux-tools-common linux-tools-$(uname -r) bpfcc-tools bpftrace trace-cmd
Étape 4 (optionnelle) : Outils spécifiques au matériel
Selon vos serveurs, installez les outils d’analyse pour :
- GPU Intel : intel-gpu-tools
- GPU NVIDIA : nvidia-smi
- Autres accélérateurs éventuels
Par contre, méfiez-vous, c’est pas donné à tout le monde de dompter ces bêtes-là. Ça demande un peu de bouteille et de la jugeote. Mais une fois que vous les maîtrisez, vous serez parés pour affronter les pires galères. Les plantages intempestifs, les I/O de l’enfer, les fuites mémoire vicieuses… plus rien ne vous résistera !
Bref, croyez-moi, le mieux c’est d’avoir tout ce bazar installé d’office sur vos machines. Comme ça, pas de mauvaise surprise le jour J. Évidemment, ça a un petit coût en espace disque. Mais franchement, c’est que dalle comparé au temps que vous allez perdre à galérer pour installer tout ça en pleine crise.
Sur ce, je vous laisse méditer là-dessus. Et n’oubliez pas, dans le monde merveilleux de l’informatique, il vaut mieux prévenir que guérir ! Allez, à plus les linuxiens et un grand merci à Brendan Gregg pour son article éclairant à ce sujet.