November 2019: Ausfall zeigt das Ausmaß der Abhängigkeit von zentralen Netzdiensten
15.11.2019 / Dr. Behrooz Moayeri
Laut Vodafone wurde der massive Internet-Ausfall am 13. und 14. November 2019 durch einen „Routing Server im europäischen Ausland“ verursacht. Somit wurde das Ausmaß der Abhängigkeit von zentralen Netzdiensten noch einmal deutlich. Wenn immer mehr Anwendungen und Abläufe von Netzen abhängig werden, kommt es darauf an, einen Netzausfall, wie wir ihn gerade erlebt haben, so unwahrscheinlich wie möglich zu machen. Darüber werden wir mit Ihnen auf dem ComConsult Netzwerk Forum vom 23. bis 26. März 2020 in Königswinter diskutieren.
Noch mehr Abhängigkeit?
Solange ein kritischer Hintergrunddienst funktioniert, ist er für die User unsichtbar. Erst wenn ein solcher Service ausfällt, wird allen bewusst, wie gravierend die Abhängigkeit von einem zentralen Dienst im Netz sein kann. Das gilt zum Beispiel für das Domain Name System (DNS). Zum Glück ist das weltweite DNS sehr stabil. Das verdanken wir einem verteilten Design, das von sich aus sehr robust ist. Gleiches gilt für die verteilte Steuerung von Routing im Internet. Der Ausfall eines Internet-Routers sollte die Funktion anderer Router nicht beeinträchtigen.
Aber einige führende Hersteller wollen uns davon überzeugen, dass wir in unseren Netzen die verteilte durch eine zentrale Steuerung ersetzen sollen. Damit soll die Durchsetzung von netzweiten Richtlinien sowie der Netzbetrieb insgesamt erleichtert werden.
Die zentrale Steuerung im Netz bedeutet die Abhängigkeit von sogenannten Controllern im Netz. Diese kommen zu den anderen kritischen Diensten wie DNS hinzu.
Was passieren kann
Stellen Sie sich vor, dass ein Software-Update auf den Netzkomponenten und den Controllern aus funktionalen oder Sicherheitsgründen erforderlich wird. Diese Notwendigkeit ist immer häufiger festzustellen. Einige führende Hersteller empfehlen, solche Updates zweimal im Jahr durchzuführen.
Stellen Sie sich ferner vor, dass ein Update 10 bis 20 Stunden dauert, in einem Netz mit ca. 100 Switches keine unrealistische Schätzung. Würden Sie gerne den Update-Vorgang auf mehrere Wartungsfenster verteilen, mit dem Update eines der Controller pro Wartungsfenster? Dann kann es passieren, dass es durch inkompatible Software-Versionen auf Controllern zu Netzausfällen zwischen den Wartungsfenstern kommt. Das ist kein theoretisches, sondern ein Beispiel aus der Praxis.
Also entscheiden Sie sich doch dafür, das gesamte Netz in einem Wartungsfenster auf die neue Software-Version umzustellen. Gehen wir von 15 Stunden für den gesamten Update-Vorgang aus. Danach müssen Sie die Netzfunktion testen, am besten anhand von Applikationstests. Dafür sollten Sie auch Zeit vorsehen, sagen wir 6 Stunden. Wenn es zu unvorhergesehenen Störungen kommt, müssen Sie das Update rückgängig machen. Das würde auch 15 Stunden dauern. In der Summe brauchen Sie ein Wartungsfenster von 15 + 6 + 15 = 36 Stunden. Es muss klar sein, das während dieser 36 Stunden die Netzfunktion gestört sein wird.
Wie man die Abhängigkeit reduzieren kann
Ist in Zukunft zweimal im Jahr mit Wartungsfenstern zu rechnen, die 36 Stunden dauern? Bisher hat kaum ein Unternehmen jährlich 72 Stunden geplante Ausfallzeit im Netz vorgesehen. Immerhin verschlechtert sich damit die Verfügbarkeit des Netzes um mehr als 0,8 %. Diese Verschlechterung vererbt sich bis zu jeder Applikation. Haben Sie ohne Netzausfälle 99,8 % Verfügbarkeit, werden daraus plötzlich nur noch 99 %.
Bisher wurde im Internet die Abhängigkeit von zentralen Diensten im Wesentlichen durch zwei Ansätze miniminiert:
- Die strikte Standardisierung, zum Beispiel der Routing-Mechanismen, sorgt dafür, dass ein Router vor und nach einem Update dieselben Schnittstellen mit anderen Systemen bedient. Die Änderung der Software auf einem Netzknoten bleibt für andere Netzkomponenten rückwirkungsfrei.
- Die Steuerung des Netzes wird verteilt und nicht zentralisiert. Jede Netzkomponente ist auch ohne andere funktionsfähig. Der Ausfall einer Komponente betrifft nur den Teil des Netzes, der ausschließlich durch die ausgefallene Komponente versorgt wird.
Man konnte sich bisher auf das Internet-Modell weitgehend verlassen. Spätestens seit dem Ausfall Mitte November wissen wir aber, dass es auch in Provider-Netzen mehr kritische zentrale Dienste gibt als früher.
Die Gegenüberstellung von standardisierten und herstellerspezifischen Designs sowie die Vor- und Nachteile von verteilter und zentraler Netzsteuerung haben wir auf die Agenda des ComConsult Netzwerk Forum gesetzt. Wir freuen uns auf eine lebhafte Diskussion von höchst aktueller Bedeutung auf dem ComConsult Netzwerk Forum vom 23. bis 26. März 2020 in Königswinter.
Der Netzwerk Insider gehört mit seinen Produkt- und Markt-Bewertungen rund um IT-Infrastrukturen zu den führenden deutschen Technologie-Magazinen. Der Bezug des Netzwerk Insiders ist kostenlos.