Panne chez Fastly : le Web prend cher !

Hier, bon nombre de sites web étaient ralentis voire inaccessibles. Spotify, Reddit, le New York Times, Twitch, LeMonde.fr ou encore les sites de la Maison Blanche et du gouvernement britannique... tous affichaient une erreur 503. Une attaque ? Non, une simple panne chez Fastly, un CDN américain.

Hier mardi 8 juin, en fin de matinée, une panne est venue mettre le Web en émoi. De Reddit au site de la Maison Blanche, de Twitch à Spotify, en passant par les sites Web de plusieurs médias (Le Monde, le Guardian, le New York Times) ou encore Paypal, tous ont renvoyé pendant parfois plusieurs heures à une “Error 503”. Très vite, le responsable s’est fait connaître : Fastly, un CDN (Content Delivery Network) américain.

Certains ont dans un premier temps cru à une attaque. Le contexte récent, avec la multiplication des attaques visant des infrastructures critiques américaines, pouvaient leur donner raison, d’autant que Fastly est une cible bien plus vulnérable qu’un Akamai ou un Cloudflare. Toutefois l’entreprise a rapidement balayé ces soupçons, expliquant qu’il s’agissait d’un problème technique. 

Bug

En cause, une mise à jour logicielle déployée mi-mai. Celle-ci contenait un bug qui pouvait être déclenché si, et seulement si, un des clients du CDN implémentait une configuration spécifique, bien que valide selon les règles de la solution. Manque de chance, c’est ce qu’il s’est produit le 8 juin : un des utilisateurs “a poussé un changement de configuration valide qui incluait les circonstances spécifiques qui ont déclenché le bug, ce qui a fait que 85% de notre réseau renvoie des erreurs” explique l’entreprise dans un post de blog. 

Malgré l’étendue de la panne, les dégâts ont été limités. “Nous avons détecté la perturbation en une minute, puis identifié et isolé la cause et désactivé la configuration. En 49 minutes, 95 % de notre réseau fonctionnait normalement” explique Fastly. Peu avant 15 heures (heure de Paris), le CDN signalait avoir rétabli l’ensemble des services, quoique certains clients pouvaient encore connaître quelques soucis. 

Le déploiement du correctif pour ce terrible bug a débuté en fin de journée. Fastly explique tirer des leçons de cette panne, menant dans un premier temps un post-mortem complet du problème et se penchant sur les raisons qui ont fait que ce bug n’ait pas été détecté avant la mise en production de la mise à jour.