Am 18. November 2025 kam es bei Cloudflare zu einem erheblichen Ausfall, der große Teile des Netzverkehrs betraf. Ursache war ein Fehler in der Bot-Management-Infrastruktur des Unternehmens und nicht etwa ein Cyberangriff.
Was passierte beim Ausfall?
Um 11:20 Uhr (UTC) begannen zentrale Komponenten des Cloudflare-Netzes, Fehlerseiten mit HTTP-Statuscodes 5xx auszuliefern. Benutzer:innen, die Websites von Cloudflare-Kund:innen aufriefen, erhielten Fehlermeldungen. Anders als oft vermutet, lag kein Angriff oder eine böswillige Handlung zugrunde. Vielmehr führte eine Änderung an den Datenbank-Berechtigungen dazu, dass eine Konfigurationsdatei („Feature-Datei“) für das Bot-Management-System doppelt so groß wie üblich wurde. Diese Datei wurde an sämtliche Netzwerk-Server verteilt.
Die betroffene Software, die für den Datenverkehr zuständig ist, konnte Dateien ab einer bestimmten Größe nicht mehr laden. Als der Fehler erkannt wurde, stoppte das Team die Verteilung der fehlerhaften Datei und spielte eine ältere, funktionierende Version ein. Gegen 14:30 Uhr normalisierte sich der Datenverkehr weitgehend. Einzelne Dienste blieben noch bis 17:06 Uhr beeinträchtigt.
Während der Störung gab es erhebliche Schwankungen bei den Fehlern, da die problematische Datei immer wieder von unterschiedlichen Datenbank-Knoten erzeugt und verteilt wurde. Dies sorgte für wechselnde Systemzustände, bevor schließlich auf allen Knoten nur noch die fehlerhafte Datei im Umlauf war.
Betroffene Cloudflare-Dienste und Auswirkungen
Der Vorfall beeinträchtigte zahlreiche Dienste. Der zentrale CDN- und Sicherheitsdienst zeigte HTTP-Fehlerseiten an. Auch „Turnstile“, der Schutzmechanismus vor unerwünschtem Zugriff, war zeitweise nicht erreichbar. Der Dienst „Workers KV“ lieferte eine erhöhte Zahl von Fehlern, ebenso wie das Dashboard. Benutzer:innen konnten sich streckenweise nicht einloggen, weil Turnstile im Login-Prozess nicht zur Verfügung stand.
Die E-Mail-Sicherheit wurde insofern beeinflusst, als Informationen zu IP-Reputationen zeitweilig fehlten. Auch die Erkennung neuer Spam-Domains funktionierte nicht durchgängig. Beim Dienst „Access“ traten Authentifizierungsfehler auf, Konfigurationsupdates verzögerten oder scheiterten, bestehende Sitzungen blieben allerdings erhalten.
Zusätzlich erhöhte sich während des Vorfalls die Antwortzeit des CDN wegen hoher CPU-Auslastung durch Überwachungs- und Fehlersuchsysteme. Die Ursachenforschung wurde durch einen Zufall erschwert: Auch die Statusseite von Cloudflare war kurzzeitig nicht erreichbar, obwohl sie unabhängig vom eigenen Netz betrieben wird.
Analyse und Maßnahmen nach dem Ausfall
Auslöser der Kette war eine Aktualisierung der Datenbankadministration. Ein neuer Berechtigungsmechanismus führte dazu, dass nun doppelte Einträge in den Konfigurationsdateien entstanden. Die Module für Bot-Erkennung sahen daraufhin mehr als die zulässigen 200 Merkmale und stoppten ihre Ausführung, was die Fehlerkette auslöste.
Während der Fehlerbehebung wurden Patches entwickelt, um zentrale Dienste wie Workers KV unabhängig vom fehlerhaften Proxy zu betreiben. Parallel sorgte das Team dafür, dass eine fehlerfreie Version der Bot-Management-Datei wieder eingespielt und die automatische Verteilung fehlerhafter Dateien gestoppt wurde.
Nach Wiederherstellung aller Systeme begann die Planung zusätzlicher Schutzmaßnahmen: Eine strengere Prüfung bei Konfigurationsänderungen, mehr globale Sicherheitsschalter und eine Überarbeitung des Ressourcenmanagements. Cloudflare bezeichnete den Ausfall als schwerwiegend und entschuldigte sich für die Auswirkungen auf Kund:innen und Internetnutzer:innen.
