Square status - France
Chronologie des événements de la panne et étapes du rétablissement des services
La semaine dernière, l’ensemble des services Square ont connu une panne de plusieurs heures. Nous savons que vous comptez sur nos systèmes pour faire fonctionner votre entreprise et nous prenons cette responsabilité au sérieux. Nous vous prions de nous excuser pour cette interruption de nos services et pour le temps qu’il nous a fallu pour remettre nos systèmes en état de marche.
Le 7 septembre 2023, à partir de 13 h 54 (heure de l’Est), les produits et les services Square étaient indisponibles. Le 8 septembre, à 2 h 05 (HE), les systèmes ont commencé à se rétablir et les commerçants ont pu accéder à nouveau aux services de paiement à 5 h 19 (HE) au plus tard. Pour les vendeurs dont la configuration prise en charge utilisait le mode hors ligne, Square a terminé le traitement des paiements hors ligne le 8 septembre avant 13 h 57 (HE) ou un peu plus tard si l’appareil ne s’est pas connecté immédiatement. Les sites Internet de Vente en ligne Square étaient disponibles mais les clients n’ont pas pu traiter les paiements pendant la panne.
Comme nous vous l’avions expliqué, cette panne a été causée par un élément clé de notre infrastructure : nos serveurs DNS. Maintenant que nous avons analysé cet incident, nous tenons à vous en expliquer les causes profondes ainsi que les étapes de rétablissement des services.
Nous allons commencer par vous expliquer brièvement le fonctionnement des systèmes de Square. Square opère dans plusieurs régions de centres de données. Les services Square utilisent le DNS et l’infrastructure de routage maillée pour trouver les dépendances des services et répondre aux requêtes. Sans DNS, les produits, les outils et les services internes de Square ne peuvent pas communiquer, ce qui entraîne une interruption du service. À l’origine de cet incident, une modification non liée de nos pare-feu basés sur l’hôte combinée à une mise à niveau du service DNS a fait peser une charge inattendue sur nos serveurs DNS internes, ce qui a causé la panne. Une fois que les caches DNS basés sur les nœuds ont expiré, les services ne pouvaient plus communiquer avec leurs dépendances et les requêtes externes échouaient.
La politique de pare-feu basé sur l’hôte de Square est gérée par un service central qui pousse les règles de pare-feu vers les nœuds dans les centres de données Square, qui étendent ensuite la politique en règles de pare-feu. Ce service applique une stratégie de déploiement accéléré pour s’adapter rapidement à un environnement dont l’état varie. Mais dans ce cas-ci, un petit changement de politique s’est étendu à un ensemble de règles beaucoup plus vaste. Ce vaste ensemble de règles a provoqué une instabilité des nœuds entraînant l’échec des requêtes au DNS au moment où il a été combiné au modèle de trafic du DNS..
Square utilise un environnement de microservices pour les services qui traitent les requêtes externes et de nombreux systèmes internes pour gérer nos services. Pour cette raison, de nombreux services utilisés pour le dépannage et le rétablissement ont également été touchés, ce qui a entraîné une panne prolongée.
Après une analyse approfondie de l’incident, nous avons exclu qu’une cyberattaque était à l’origine de cet incident etn’avons trouvé aucun indice de violation ou de perte de données.
7 septembre 2023
Le 8 septembre 2023
L’incident a mis en évidence des opportunités d’amélioration de notre infrastructure et nous effectuons actuellement des modifications visant à prévenir de futurs incidents :
De nombreux vendeurs ont utilisé le mode hors ligne pour continuer à accepter les paiements. Par mesure de précaution, nous avons différé le traitement des paiements hors ligne de quelques heures. Nous renforçons notre assistance et améliorons notre communication concernant la disponibilité du mode hors ligne.
Nous vous prions de nous excuser pour les perturbations que notre panne a pu vous causer, à votre entreprise, vos clients et vos collaborateurs. Nous savons que cette situation a été aggravée par la fréquence des communications et le retard de réponse de l’assistance technique que certains d’entre vous ont eu à déplorer. Nous allons tirer les leçons de cet événement et améliorer nos systèmes et nos processus.
Nous vous remercions de votre confiance et nous nous engageons à progresser encore davantage pour continuer à la mériter.