aus dem Netzwerk Insider Januar 2021
Eine Störung in einem Provider-Netz im Januar war auf eine Wartung zurückzuführen, die länger dauerte als geplant. Auch bei guter Vorbereitung der Wartungsarbeiten kann so etwas passieren. Wie im genannten Fall kann der störende Wirkbereich wegen Abhängigkeiten sehr groß sein. Wichtig ist daher, die Möglichkeiten zur zügigen Wiederherstellung von Diensten und Anwendungen bei Problemen mit deren Wartung zu kennen und entsprechende Schritte rechtzeitig einzuleiten!
Notwendige Voraussetzungen sind: Aufmerksame Verfolgung des Fortschritts von Wartungsarbeiten und Kenntnis realistischer Dauern für Wiederherstellungsoptionen.
Im konkreten Fall kam es zu einem Ausfall des Zugangs zum Internet für die Kunden eines Service-Providers und andere Nutzer. Als Grund wurde bekannt, dass die Wartung bei Servern für das Domain Name System (DNS) länger dauerte als geplant.
Wartungen sind unumgänglich
Wartungen sollen dazu dienen, technische Lösungen zu stabilisieren, erkannte Verfügbarkeitsrisiken zu senken und Sicherheitsrisiken durch geplante Änderungen zu entschärfen. Solange man eine in diesem Sinne notwendige Wartung nicht durchführt, besteht also ein erhöhtes Risiko für Verfügbarkeit und Sicherheit von IT-Services und IT-basierter Ausstattung.
Jeder solcher Eingriffe an einer produktiv genutzten Lösung birgt allerdings ein zeitweiliges Risiko während der Durchführung. Bis Änderungen an Hardware, Software oder Konfiguration erfolgreich erledigt sind und wirken, kann die betroffene Installation vorübergehend spürbar langsamer oder gar nicht nutzbar sein.
„Never change a running system“, ein altes geflügeltes Wort, spiegelt dieses „Impact-Risiko“ wider, kann aber nicht die Antwort sein. Der Ansatz, erst bei Problemen reparierend einzugreifen, ist für IT-Betreiber und Service-Provider aktueller, wichtiger IT-Lösungen untauglich. Schon grundlegende Verfügbarkeitserwartungen können so nicht erfüllt werden, Service Level Agreements erst recht nicht.
Wartungsfenster sind ein bewährtes Mittel, um das Risiko zu lange aufgeschobener Wartung und das Betriebsrisiko während einer Wartung effektiv auszubalancieren. Erfolgreich eingesetzt, schützten sie die Nutzer der zu wartenden Lösung ebenso wie die Betreiber und Nutzer anderer Services, die von der betroffenen Lösung technisch abhängig sind. (siehe Abbildung 1)
Wartungsfenster sind keine Selbstläufer
Dank Redundanzen und aktueller Automatismen zu deren Verwaltung kann manche Änderung – auch eine Wartung – transparent ohne produktiv spürbare Auswirkungen erfolgen. Manche Eingriffe sind auch so wichtig, dass sie unverzüglich erfolgen sollen, nötigenfalls auch als Emergency Changes während typischer produktiver Nutzungszeiten.
Hat man sich aber für ein Wartungsfenster als Durchführungszeitraum entschieden, so wird erwartet, dass dieses eingehalten wird – und dies aus gutem Grund.
Das Beispiel von Mitte Januar 2020 zeigt, was sonst passieren kann: Ein Provider ist mit Wartungsarbeiten in die typischen produktiven Nutzungszeiten internetbasierter Angebote hineingeraten. Die Art des betroffenen Dienstes und die Verflechtungen im Internet haben dazu geführt, dass Kunden dieses Providers und anderer Provider eine Großstörung beobachteten. Für Betroffene war der gewohnte Internetzugang nicht gegeben, eine Provider-basierte VoIP-Nutzung und damit die telefonische Erreichbarkeit gestört. Die Ursache war zunächst unklar.
Was ist da schiefgelaufen? Ärgerlich ist ein solcher Zustand allemal. Was ihn aber als Großstörung wirken ließ, war der Zeitpunkt: Wären die Seiteneffekte nur während des geplanten Wartungsfensters – hier: nachts – eingetreten, hätte kaum jemand davon Notiz genommen. Wer im
Zeitraum des Wartungsfensters arbeiten wollte, konnte wirksam informiert werden: Aha, Wartung, später wieder versuchen, kein Ticket und keine eigenen Behebungsversuche nötig.
Die Abhängigkeit von grundlegenden Diensten und Services, auch zwischen verschiedenen Providern, ist eine Tatsache und wird es bleiben. Vernetzung und darauf aufbauende Verflechtungen sind ein fester Teil der Lösungen und Angebote, die man heute nutzt und erwartet. Unvorhergesehene Verzögerungen bei der Wartungsdurchführung kann es geben; das lässt sich auch bei guter Vorbereitung nicht völlig ausschließen. Einzig effektiver Ansatz also:
Wer wichtige Lösungen wartet, sollte möglichst mit „Service out“-artigen Effekten im Wartungsfenster bleiben – auch bei Problemen.
In einem abgestimmten und angekündigten Wartungsfenster sind Einschränkungen durch Neustarts, Schwenks, deutlich eingeschränkte Performance usw. akzeptabel. Das gilt auch, wenn solche Einschränkungen nicht zum geplanten Wartungsablauf gehören, sondern aus Problemen bei der Wartungsdurchführung resultieren.
Ist ein angemeldetes Wartungsfenster zu Ende, werden solche Vorfälle vom Service-Nutzer als Störung gewertet, wie ein durch technisches Versagen eingetretener Incident. (siehe Abbidlung 2)
Worauf ist zu achten?
Probleme bei der Durchführung geplanter Eingriffe wie bei Wartungen hängen im konkreten Fall von verschiedenen Faktoren und den Eigenschaften der betroffenen Lösungen ab. Aber: Die Erfahrung mit verschiedenen Kunden der ComConsult lehrt, dass man typische Fallen nennen und vermeiden kann.
- Risiken bei Wartungen nicht unterschätzen
Eine Änderung an einem scheinbar einfachen Dienst kann bei Problemen breit gestreute Seiteneffekte haben. Wirklich alle Abhängigkeiten zu kennen, wird immer schwieriger. Ein einfacher Dienst wie DNS kann bei Störung für viele Nutzer, die keine Ausweichlösungen einrichten können, einen Totalausfall der IT-Ausstattung darstellen. - Wartungstermine nicht überfrachten
Solange alles glatt läuft, kann man womöglich verschiedene Eingriffe parallel durchführen. Hakt es aber irgendwo, müssen oft erst für diesen Teil der Infrastruktur (in Teamarbeit) Ursachen- und Lösungsfindung erfolgen. Andere Arbeiten müssen solange pausieren. Wer zu viele verschiedene Wartungsaktivitäten in dasselbe Wartungsfenster legt, hat oft keine Chance, trotz einer solchen Zwangspause noch pünktlich mit allem fertig zu werden. - Puffer einplanen
Es muss gar kein zu lösendes, unvorhergesehenes Problem sein, das Wartungsarbeiten verlängert. In der Vorbereitung in separierter Umgebung getestete Vorgänge können in der komplexeren Produktivumgebung einfach länger dauern. Sich selbst kann man vielleicht zu schnellerem Arbeiten anspornen, technische Automatismen nicht. „Just in time“ ist daher eine riskante Strategie der Zeitplanung für Wartungsarbeiten, selbst wenn alle nötigen Arbeitsgänge akribisch getestet wurden. - Workarounds und Fallbacks kennen und beherrschen
Zunächst muss man wissen, welche Möglichkeiten zur Überbrückung von Problemen bzw. zum schnellen Rückbau zur Verfügung stehen. Was man einsetzen kann, hängt dabei vom Zwischenzustand ab, den man erreicht hat. Gut also, wenn man mehr als nur eine Option zur Verfügung hat. „Alles zurück“ würde oft zu lange dauern, wenn man bei einem Wartungsvorgang erst spät auf das unvorhergesehene Problem stößt.
Zum Beherrschen eines möglicherweise nötigen Workarounds gehört dabei auch das Wissen, wie lange seine Durchführung realistisch dauert. Nur dann kann man rechtzeitig die Reißleine ziehen und einen Service-Down-Zustand zur Unzeit vermeiden, indem man noch im Wartungsfenster die Lage stabilisiert.
- Verlauf und Fortschritt einer Wartung kritisch beobachten
Wer rechtzeitig auf Probleme bei Wartungseingriffen reagieren will, muss möglichst früh erkennen, wenn etwas nicht wie geplant und eingeübt läuft bzw. unerwartet lange dauert. Erfolgskontrollen müssen also zwischenzeitlich vorgesehen werden, auch bzw. nicht zuletzt dann, wenn Wartungsschritte automatisiert ablaufen. Das regelmäßige Beobachten der Uhr gehört ebenso zu einer kritischen Begleitung des Wartungsablaufs.
Gerade der letzte Punkt macht oft den Unterschied aus und bringt die zuvor genannten erst voll zur Wirkung, um störungsvermeidend im Wartungsfenster zu bleiben:
Man muss während der Wartung immer darauf achten, dass es mindestens einen Weg zur Wiederherstellung eines betroffenen Dienstes etc. gibt, der maximal so lange dauert wie aktuell Zeit bis zum Ende des Wartungsfensters übrig ist.
Der Netzwerk Insider gehört mit seinen Produkt- und Markt-Bewertungen rund um IT-Infrastrukturen zu den führenden deutschen Technologie-Magazinen. Der Bezug des Netzwerk Insiders ist kostenlos.
Teile diesen Eintrag
Kontakt
ComConsult GmbH
Pascalstraße 27
DE-52076 Aachen
Telefon: 02408/951-0
Fax: 02408/951-200
E-Mail: info@comconsult.com