Coupure AWS - C'était quoi ce bordel ?
Ça ne vous aura pas échappé, il y a eu un gros souci avec Amazon Web Services cette semaine, provoquant des perturbations chez pas mal de services utilisant AWS.
J’ai vu passé sur Reddit des histoires de DDos, de malware et j’en passe, mais finalement, Amazon a expliqué d’où venait le problème et c’est plutôt “cocasse” (ouais, je dis cocasse si j’veux d’abord).
Il s’agissait tout simplement d’une erreur de typo dans l’une des commandes utilisées pour un debuggage de routine. L’objectif était de basculer en offline quelques-uns des serveurs utilisés pour le système de facturation et le/la barbu(e) qui a entré la commande s’est trompé(e) et c’est une quantité de serveurs plus importante que prévu qui ont été retirés du circuit. Parmi eux, 2 sous-systèmes entiers dédiés à S3 (là où on héberge des fichiers, ce qui explique les images cassées ou les ressources inaccessibles chez pas mal de clients Amazon).
Et évidemment, le redémarrage ne s’est pas passé sans problème puisque dans le lot, il y avait quelques serveurs qui n’avaient jamais été rebootés depuis plusieurs années, qui n’ont pas supporté le choc et ont rencontré des problèmes de lenteur au redémarrage à cause des vérifications sécurité et système.
Le plus beau là-dedans, c’est que ce problème a aussi impacté le tableau de bord qui atteste de la santé d’AWS, donc impossible d’indiquer aux clients ce qui se passait. Amazon a dû se servir de Twitter pour communiquer officiellement.
Bref, un beau bordel à cause d’une erreur humaine. Comme d’hab quoi.