Lundi 14 décembre, la majeure partie des services de Google est tombée en panne. Les raisons de ce dysfonctionnement, qui a duré 40 minutes, une éternité pour certains, sont désormais expliquées par le géant de Mountain View, qui désigne comme coupable son système d'authentification.
Le 14 décembre, pendant près de 50 minutes, bon nombre de services Google sont tombés en rade. Gmail, YouTube, Doc, Drive, Agenda ou encore Sheets, ainsi que certains outils entreprises, à l’instar de Google Cloud Console ou de Google Workspace étaient inaccessibles, tandis que BigQuery et GKE (Google Kubernetes Engine) tournaient au ralenti. Leur point commun ? Tous utilisent le système d’authentification Google OAuth.
Le service Google User ID gère un identifiant unique pour chaque compte Google ainsi que les informations d'authentification pour les jetons et cookies OAuth. Les données de compte sont stockées dans une base de données distribuée qui utilise les protocoles Paxos pour coordonner les mises à jour de ces informations, rejetant les requêtes lorsqu’il détecte des données obsolètes, sécurité oblige.
La faute à Paxos
Cela dit, Google signale qu’il utilise une suite d’outils pour automatiser la gestion des quotas des ressources qu’il alloue à ses différents services. Or, alors qu’il migre vers un nouveau système de quotas en octobre, certains des anciens éléments de quotas sont laissés en place, signalant à tort l’usage pour l’User ID Service à 0. Soit un scénario dit “à charge nulle” que ne couvrait pas les mécanismes de sécurité en place.
Après une période “de grâce” sur l’application des restrictions de quotas dans le cadre de cette migration, qui retarde la catastrophe, l’automatisation reprend son cours, avec une soudaine réduction des quotas des services dont l’utilisation est signalée à 0. Ce qui diminue le quota autorisé pour le service d'identification de l'utilisateur. “Peu de temps après, la majorité des opérations de lecture sont devenues obsolètes, ce qui a entraîné des erreurs lors des recherches d'authentification” écrit Mountain View.
“Par conséquent, nous n'avons pas pu vérifier que les demandes des utilisateurs étaient authentifiées et affichions des erreurs 5xx sur pratiquement tout le trafic authentifié” poursuit Google. Bilan, des taux d’erreur élevés sur l’ensemble des services grand public de Google, et sur une partie des outils de Google Cloud.
[/et_pb_text][/et_pb_column][/et_pb_row][/et_pb_section]