Am 04.10.2021 fielen Facebook, WhatsApp und Instagram stundenlang aus. Davon waren nicht nur die Dienste des Facebook-Konzerns selbst betroffen. Viele User nutzen Facebook als Identity Provider, wenn sie sich in andere Dienste einloggen. Dabei wird der Umstand ausgenutzt, dass man bei Facebook schon angemeldet ist. Statt eigener Credentials eines Drittdienstes kann man den angemeldeten Status bei Facebook nutzen. Es wird berichtet, dass viele User durch den Facebook-Ausfall weder einkaufen noch ihre Haustechnik bedienen konnten. Ferner waren auch die Facebook-internen Arbeitsplätze betroffen. Für Häme sorgten Berichte, dass das Facebook-Personal für Absprachen bezüglich der Problembehebung Twitter und andere Konkurrenzplattformen genutzt haben soll.
Am 09.10.2021 war das Facebook-Netz noch einmal von einem Ausfall betroffen.
Offiziell mitgeteilte Ursache: Routing
Zunächst wurde vermutet, dass Facebook Probleme mit dem Domain Name System (DNS) habe. Dieser Trugschluss kam durch die Fehlermeldung mancher Browser zustande, die auf einen DNS-Ausfall hindeuteten. Es stellte sich aber heraus, dass die per Border Gateway Protocol (BGP) mitgeteilten IP-Adressbereiche von Facebook nicht erreichbar waren. DNS-Server von Facebook waren also nicht erreichbar, weil das ganz Facebook-Netz nicht erreichbar war. Die offizielle Mitteilung von Facebook bestätigt Probleme mit Routing, nicht mit DNS. Laut Facebook war die Ursache des Problems eine fehlerhafte Konfiguration auf Routern. Facebook spricht von einer Kaskade von Problemen, initial ausgelöst durch das Routing-Problem. Auch für den Ausfall am 09.10.2021 gibt Facebook als Ursache Konfigurationsfehler an.
Reset durch physisch präsentes Personal?
Bis zum Zeitpunkt der Niederschrift dieser Zeilen hat Facebook die Gerüchte nicht bestätigt, wonach der Reset der betroffenen Router durch physisch präsentes Personal erfolgen musste. Vielleicht ist das aber nur eine Spekulation, genährt von der Länge des Ausfalls, der ca. sechs Stunden dauerte. Wenn etwas an der Spekulation dran ist, wirft dies Fragen bezüglich des Zustands des Out-Of-Band-Managements (OOBM) bei Facebook auf. Man sollte alles tun, damit kritische Komponenten möglichst vollständig remote bedient werden können. Dafür gibt es ja Management-Interfaces einschließlich serieller Schnittstellen, mit denen man sich über ein funktionierendes OOBM verbinden kann. Aber wir wollen nicht weiter spekulieren. Vielleicht ist der Bericht, der rettende menschliche Finger musste den Reset-Knopf drücken, nur Teil einer Anti-Facebook-Kampagne. Facebook wird im Moment unabhängig vom Ausfall aus kartellrechtlichen und politischen Gründen kritisiert. Eine Whistleblowerin, die früher bei Facebook arbeitete, soll im US-Kongress befragt werden. Sie behauptet, Facebook habe bewusst in Kauf genommen, dass die eigenen Algorithmen Hasspropaganda favorisiert haben.
Wenn eine Konfiguration zum Problem wird
Bleiben wir bei den Fakten. Facebook hat selbst berichtet, dass die Ursache des Problems eine fehlerhafte Konfiguration auf Routern war. Wir wissen damit: Der sogenannte Single Point of Failure (SPoF) war EINE Konfiguration. Kein Hardware-Ausfall, keine fehlerhafte Software, sondern eine fehlerhafte Konfiguration hat das Routing bei Facebook derart beeinträchtigt, dass der Börsenwert der Facebook-Aktien des Facebook-Chefs Zuckerberg binnen Stunden um einige Milliarden Dollar schrumpfte.
Die Frage ist angebracht, wie EINE Konfiguration einen Hyperscaler wie Facebook nicht nur vom restlichen Internet trennen, sondern auch intern lahmlegen kann. Ich habe in verschiedenen Beiträgen darauf hingewiesen, dass die verteilte Steuerung wesentlich zur Robustheit des Internet beigetragen hat. Dieses Prinzip des Internet ist darauf zurückführen, dass qua Auftrag vor über 50 Jahren eine atomkriegsresistente Infrastruktur zu entwerfen war. Die Internet-Erfinder haben ein Netz der Netze geschaffen, deren Bestandteile voneinander unabhängig sind. Ein Router ist in diesem Ansatz von keinem anderen Router abhängig. Er folgt seiner eigenen Konfiguration und seinen eigenen Steuerungsalgorithmen. Man kann das Internet so weit in einzelne Segmente zerlegen, bis alle Router voneinander getrennt sind. Diese arbeiten aber weiter, d.h. vermitteln zwischen Rechnern, die sie noch erreichen können.
Wenn Facebook sagt, EINE Routing-Konfiguration war die Problemursache, dann müssen gleich mehrere Router DIESELBE Konfiguration bekommen haben, und zwar gleichzeitig oder in derart kurzem zeitlichen Abstand, dass das Problem nicht während der Änderung, sondern erst nach deren Vollendung auffiel.
Was nicht passieren darf
Genau das, was Facebook mitgeteilt hat, darf nicht passieren. Eine Konfiguration darf nicht zum Single Point of Failure (SPoF) werden, zumindest nicht für eine riesige Netzumgebung wie die von Facebook. In einer solchen Umgebung muss es eine Netztrennung bis zu einem Grad geben, dass keine Hardware-Komponente, keine fehlerhafte Software und keine einzelne Konfiguration ein SPoF ist. Keine Komponente darf in einer solchen Umgebung zum einzelnen neuralgischen Fehlerverursacher werden.
Seit dem 04.10.2021 werden über den Hergang des Facebook-Problems viele Spekulationen angestellt. Sehen Sie mir meine eigene nach: Kann es sein, dass Facebook die Control Plane im eigenen Netz zu radikal zentralisiert hat? Schon 2014 machten die Facebook-Techniker viel Werbung mit ihrem Software Defined Network (SDN). In einem SDN gibt es bekanntlich eine zentralisierte Netzsteuerung (Control Plane). SDN mit zentralisierter Control Plane unterscheidet sich genau diesbezüglich vom Ansatz der verteilten Intelligenz, dem Ansatz, dem das Internet seine Robustheit verdankt. Ende der Spekulation.
Fazit
Als Single Point of Failure werden häufig Hardware oder Leitungen verstanden. Dabei kann auch eine fehlerhafte Software große Ausfälle verursachen. Gleiches gilt für eine fehlerhafte Konfiguration, wie der Facebook-Ausfall vom 04.10.2021 zeigt. Will man jeglichen neuralgischen Punkt im Netz vermeiden, muss man statt einer vollständig zentralisierten Steuerung des Netzes die Steuerungsintelligenz im Netz verteilen. Nur so vermeidet man, dass EINE fehlerhafte Konfiguration das ganze Netz lahmlegt.