Square status - France

Degraded Performance: Square Services
Incident Report for Square FR
Postmortem

Récapitulatif de l’incident : 07/09/2023

Chronologie des événements de la panne et étapes du rétablissement des services

Résumé

La semaine dernière, l’ensemble des services Square ont connu une panne de plusieurs heures. Nous savons que vous comptez sur nos systèmes pour faire fonctionner votre entreprise et nous prenons cette responsabilité au sérieux. Nous vous prions de nous excuser pour cette interruption de nos services et pour le temps qu’il nous a fallu pour remettre nos systèmes en état de marche.

Le 7 septembre 2023, à partir de 13 h 54 (heure de l’Est), les produits et les services Square étaient indisponibles. Le 8 septembre, à 2 h 05 (HE), les systèmes ont commencé à se rétablir et les commerçants ont pu accéder à nouveau aux services de paiement à 5 h 19 (HE) au plus tard. Pour les vendeurs dont la configuration prise en charge utilisait le mode hors ligne, Square a terminé le traitement des paiements hors ligne le 8 septembre avant 13 h 57 (HE) ou un peu plus tard si l’appareil ne s’est pas connecté immédiatement. Les sites Internet de Vente en ligne Square étaient disponibles mais les clients n’ont pas pu traiter les paiements pendant la panne.

Comme nous vous l’avions expliqué, cette panne a été causée par un élément clé de notre infrastructure : nos serveurs DNS. Maintenant que nous avons analysé cet incident, nous tenons à vous en expliquer les causes profondes ainsi que les étapes de rétablissement des services.

Impact du service

Nous allons commencer par vous expliquer brièvement le fonctionnement des systèmes de Square. Square opère dans plusieurs régions de centres de données. Les services Square utilisent le DNS et l’infrastructure de routage maillée pour trouver les dépendances des services et répondre aux requêtes. Sans DNS, les produits, les outils et les services internes de Square ne peuvent pas communiquer, ce qui entraîne une interruption du service. À l’origine de cet incident, une modification non liée de nos pare-feu basés sur l’hôte combinée à une mise à niveau du service DNS a fait peser une charge inattendue sur nos serveurs DNS internes, ce qui a causé la panne. Une fois que les caches DNS basés sur les nœuds ont expiré, les services ne pouvaient plus communiquer avec leurs dépendances et les requêtes externes échouaient.

La politique de pare-feu basé sur l’hôte de Square est gérée par un service central qui pousse les règles de pare-feu vers les nœuds dans les centres de données Square, qui étendent ensuite la politique en règles de pare-feu. Ce service applique une stratégie de déploiement accéléré pour s’adapter rapidement à un environnement dont l’état varie. Mais dans ce cas-ci, un petit changement de politique s’est étendu à un ensemble de règles beaucoup plus vaste. Ce vaste ensemble de règles a provoqué une instabilité des nœuds  entraînant l’échec des requêtes au DNS au moment où il a été combiné au modèle de trafic du DNS..

Square utilise un environnement de microservices pour les services qui traitent les requêtes externes et de nombreux systèmes internes pour gérer nos services. Pour cette raison, de nombreux services utilisés pour le dépannage et le rétablissement ont également été touchés, ce qui a entraîné une panne prolongée.

Après une analyse approfondie de l’incident, nous avons exclu qu’une cyberattaque était à l’origine de cet incident etn’avons trouvé aucun indice de violation ou de perte de données.

Chronologie

7 septembre 2023

  • 11 h 04 (HE) : la modification de la règle de pare-feu basée sur l’hôte a été déployée pour permettre la communication régionale, augmentant la taille de la règle de pare-feu sur le nœud.
  • 13 h 56 (HE) : changement de zone DNS.
  • 14 h 02 (HE) : les ingénieurs ont été informés des problèmes d’infrastructure et notre intervention commence par une enquête DNS.
  • 14 h 47 (HE) : l’incident issquareup.com a été créé.
  • 14 h 52 (HE) : les travaux commencent pour rétablir l’accès et les outils internes.
  • 15 h 56 (HE) : le trafic réseau est déversé sur nos serveurs DNS. Nous commençons à mettre en place manuellement de nouveaux serveurs DNS.
  • 18 h (HE) : la capacité du service DNS a été augmentée mais la situation ne s’améliore pas. Nous commençons à déployer manuellement des modifications réseau afin de réactiver nos services d’autorisation et d’accès.
  • 18 h 29 (HE) : les services d’accès interne sont rétablis. Les ingénieurs peuvent commencer à travailler en parallèle pour rétablir les services d’autorisation et de plan de contrôle.
  • 19 h (HE) : nous commençons à déployer manuellement les modifications réseau dans tous les centres de données.
  • 20 h 36 (HE) : le pipeline de déploiement Square se rétablit.
  • 22 h 06 (HE) : nos serveurs DNS sont reconstruits.
  • 23 h 52 (HE) : une nouvelle configuration basée sur un jeu de règles inversé est créée et la configuration commence à être transmise aux hôtes DNS.

Le 8 septembre 2023

  • 0 h 06 (HE) : certains hôtes DNS sont sains et de plus en plus d’outils internes se rétablissent.
  • 0 h 55 (HE) : tous les serveurs DNS sont sains.
  • 1 h 30 (HE) : nous récupérons partiellement la connectivité du service interne au service. Notre infrastructure de routage périphérique est partiellement restaurée.
  • 2 h 05 (HE) : certains systèmes Square commencent à se rétablir.
  • 2 h 40 (HE) : le trafic des paiements est entièrement rétabli.
  • 3 h 12 (HE) : l’infrastructure de routage périphérique est entièrement rétablie.
  • 4 h 18 (HE) : la plupart des produits et services Square sont rétablis. L’incident issquareup.com a été mis à jour et nous avons mis en œuvre une série de correctifs.
  • 5 h 19 (HE) : l’incident issquareup.com est résolu.
  • 6 h 59 (HE) : une capacité DNS supplémentaire a été ajoutée.
  • 9 h 52 (HE) : le traitement en arrière-plan des paiements hors ligne commence.
  • 13 h 57 (HE) : les paiements hors ligne importés ont été entièrement traités.

Améliorations du service

L’incident a mis en évidence des opportunités d’amélioration de notre infrastructure et nous effectuons actuellement des modifications visant à prévenir de futurs incidents :

  • Transition de notre infrastructure DNS vers une infrastructure isolée ;
  • Surveillance et optimisations supplémentaires pour les infrastructures de réseau critiques ;
  • Optimisation des dépendances entre notre infrastructure de déploiement et de plateforme lorsque c’est possible.

De nombreux vendeurs ont utilisé le mode hors ligne pour continuer à accepter les paiements. Par mesure de précaution, nous avons différé le traitement des paiements hors ligne de quelques heures. Nous renforçons notre assistance et améliorons notre communication concernant la disponibilité du mode hors ligne.

Conclusion

Nous vous prions de nous excuser pour les perturbations que notre panne a pu vous causer, à votre entreprise, vos clients et vos collaborateurs. Nous savons que cette situation a été aggravée par la fréquence des communications et le retard de réponse de l’assistance technique que certains d’entre vous ont eu à déplorer. Nous allons tirer les leçons de cet événement et améliorer nos systèmes et nos processus.

Nous vous remercions de votre confiance et nous nous engageons à progresser encore davantage pour continuer à la mériter.

Posted Sep 18, 2023 - 17:58 CEST

Resolved
We can now confirm that the disruption impacting Square services has been resolved.
Please be aware that sellers may encounter delays in the updating of certain products/services:

- Offline Mode Payments: Payments are being uploaded, but there will be a slight delay before they appear as completed.
Any new Offline Mode Payments will be completed as normal in the coming hours.

- Square Reporting Tools: There is a possibility of delays in updating new billing and transaction information across all Square reporting tools, including those in all Square Point of Sale apps and the Dashboard.

We understand how important it is to have your business tools fully operational, and for this reason, our engineering team is currently engaged in discussions to prevent similar disruptions from happening in the future.

We sincerely thank you for your patience as our team worked to resolve this issue, and we apologize for any inconvenience this disruption may have caused to your business.

Once this disruption has been fully investigated, we plan to publish a full review of this issue and determine what steps we can take to prevent it from happening again.
Posted Sep 08, 2023 - 15:45 CEST
Update
Your continued patience and support mean a lot to us as our engineers oversee the implemented solution. Services are steadily regaining their functionality, and we will share any additional updates on this platform as soon as they become available.
Posted Sep 08, 2023 - 14:21 CEST
Update
We are actively observing the recovery of all Square systems and will continue to post live updates here. Thanks again for your patience.
For instant answers to common questions, visit our Support Center at squareup.com/help or our Seller Community at sellercommunity.com.
Posted Sep 08, 2023 - 13:18 CEST
Update
We appreciate your ongoing patience and support as our engineers continue to monitor the solution implemented. We are continuing to see services regain functionality and we'll post any further updates here as we have them.
Posted Sep 08, 2023 - 12:22 CEST
Update
Our engineering team is continuing to monitor the results of the fix implemented and Square services are continuing to recover.
As a reminder, for instant answers to common questions, visit our Support Center at squareup.com/help or our Seller Community at sellercommunity.com. Thank you.
Posted Sep 08, 2023 - 11:18 CEST
Monitoring
Our engineering team has implemented a fix and services are beginning to recover. We’re continuing to monitor the results and will be back with an update shortly. Thank you for your patience!
Posted Sep 08, 2023 - 10:17 CEST
Update
At this time, we do not have a solution for the disruption, though we have all the right people working to get it resolved as soon as possible. Very sorry for the inconvenience today.
Posted Sep 08, 2023 - 09:07 CEST
Update
All of the appropriate team members are working to identify what's causing this disruption. We'll be back with an update as soon as possible. Thank you for your patience!
Posted Sep 08, 2023 - 08:25 CEST
Update
Checking in to let you know that our engineers are still working on a resolution. We'll continue to update you as we learn more.
Posted Sep 08, 2023 - 07:46 CEST
Update
Our engineering team are actively working to identify the issue. All hands are on deck, and we'll update you as soon as we have news. Thanks for your patience again!
Posted Sep 08, 2023 - 07:11 CEST
Update
Our engineering team is dedicated to finding a solution. We'll share updates as soon as possible. Thank you for your continued patience today.
Posted Sep 08, 2023 - 06:34 CEST
Update
We're working to pinpoint the issue's root cause, and will continue to share updates as we get them. Thank you for your understanding!
Posted Sep 08, 2023 - 05:54 CEST
Update
We're working hard to find the issue's root cause. We'll share updates ASAP. Your patience is greatly appreciated as we work through this today.
Posted Sep 08, 2023 - 05:21 CEST
Update
We are actively working to resolve the disruption affecting multiple Square Services. We thank you for your ongoing patience as we await further updates on our team's progress.
Posted Sep 08, 2023 - 04:46 CEST
Update
We're continuing to work on resolving this disruption, and can assure you that we're working hard to get you the information you need. We'll continue post updates as we learn more.
Posted Sep 08, 2023 - 04:17 CEST
Update
Our engineering team is continuing to work to identify the root cause of this ongoing disruption. We will be back here as soon as any update is shared. As the day goes on, we appreciate your patience with our team.
Posted Sep 08, 2023 - 02:57 CEST
Update
Thank you for your ongoing patience as our team continues to investigate the disruption impacting multiple Square Services. We remain committed to providing you with timely updates, and we'll have another update within the hour as we gather more information from our Engineers.
Posted Sep 08, 2023 - 02:16 CEST
Update
We appreciate your continued patience as we continue to investigate a disruption with one of our Data Centers. At this time, reaching our Customer Success team may be a longer wait than normal. We will be back with an update within the hour as we receive more information from our Engineers.
Posted Sep 08, 2023 - 01:50 CEST
Identified
While we investigate the disruption to our Data Center which is currently impacting multiple Square Services, we recommend that Sellers stay logged into their account and avoid logging out.
At this time, reaching our Customer Success team may be a longer wait than normal. We will be back here to update you as soon as we receive more information. Thank you for your patience.
Posted Sep 07, 2023 - 21:22 CEST
Investigating
We are currently investigating a disruption with one of our Data Centers that is causing an impact on multiple Square Services. At this time, reaching our Customer Success team may be a longer wait than normal. We’ll be back to update as soon as we receive more information from our Engineers.
Posted Sep 07, 2023 - 21:08 CEST
This incident affected: Payment Acceptance, Point of Sale, Transfers, Online Store, Dashboard, Square for Restaurants, Square for Retail, and Phone Support.