Monitoring – Performance-Elemente
von Oliver Flüs und Dr. Markus Ermes
Zeitgemäße IT-Angebote sind IT-Services. Eine reine Vermeidung von Totalausfällen wird nicht als angemessene Service-Qualität akzeptiert. Zur Zufriedenheit der Service-User bereitgestellte Angebote weisen eine erwartete (Mindest-)Performance auf. Ob über Service Level Agreements (SLAs) abgesichert, oder „nur“ durch eine Nutzungsvereinbarung – wer ein solches Service-Angebot zu verantworten hat, muss eine entsprechende Erwartungshaltung bedienen.
Zunehmend kommt im dafür notwendigen Monitoring und in Add-On-Anzeigen zu Apps der Begriff der User Experience auf. Performance Monitoring, aus User-Sicht vor allem auf Anwendungsebene, bietet Antworten auf die damit verbundenen Fragen nach Messbarkeit, automatisierter Auswertung, Alarmierung und Diagnosehilfen.
Wer allerdings hofft oder gar versucht, mit entsprechend hinzugekauften Funktionalitäten in seiner Monitoring-Ausstattung schnell und einfach in diesem Sinne erkannte Lücken erfolgreich zu schließen, wird enttäuscht sein und scheitern. Der vorliegende Artikel versucht, ein notwendiges Grundverständnis zu vermitteln und aus der Praxis die Augen für typische Fehler und Fallen zu öffnen. Eine Tool-Ausstattung ist nur so gut, wie sie zum Bedarf passt und beherrscht wird – das gilt für Performance Monitoring ganz besonders.
Ausschreibung von Weitverkehrsnetzen
von Martin Egerter
Trotz Cloud und Homeoffice wird uns das Betreiben eines On-Premises-Unternehmensnetzes inkl. lokaler Endgeräte, Daten und Ressourcen noch eine ganze Zeit lang nicht erspart bleiben. Dieses lokale Netz abzusichern und vor ungewünschten Zugriffen zu schützen ist ein Thema, das auch aus heutiger Sicht wichtiger Bestandteil einer IT-Security-Strategie sein sollte. Mithilfe einer Netzwerkzugriffskontrolle, oder kurz NAC bzw. Network Access Control, können wir das Durchsetzen von Richtlinien unterstützen und Bedrohungen verringern.
Folgen der Flutkatastrophe für die IT
Dr. Behrooz Moayeri
Angesichts von nahezu 200 Toten allein in Deutschland muss die Flutkatastrophe in erster Linie Anlass für Überlegungen sein, wie künftig Menschenleben vor den Folgen eines solchen Naturereignisses zu schützen sind. Auch die materiellen Schäden für tausende von ihnen sind immens. Neben dem Schutz von Menschenleben sind auch Vorkehrungen notwendig, damit eine Überschwemmung nicht so vielen Menschen wirtschaftlich schadet oder sie gar wirtschaftlich ruiniert. Materielle Schäden durch eine solche Flut beschränken sich allerdings nicht nur auf zerstörte Häuser, Straßen und Brücken. Das wirtschaftliche Leben in den Katastrophengebieten kam tagelang, teils auch wochenlang zum Erliegen. Künftig sollte man es auch diesbezüglich besser machen.
Disaster Recovery überdenken!
von Dr. Joachim Wetzlar
Können Sie sich vorstellen, was es bedeutet, wenn für einige Tage der Strom wegbleibt? Nein, ich meine nicht die IT-Infrastruktur, für die Sie verantwortlich zeichnen. Wenn es denn sein muss, verfügen Sie dort über eine Netzersatzanlage, die wichtige Verbraucher mit Strom versorgt. Solange Sie über genügend Brennstoff verfügen, ist die Sache geregelt, oder?
Folgen der Flutkatastrophe für die IT
Fortsetzung
Angesichts von nahezu 200 Toten allein in Deutschland muss die Flutkatastrophe in erster Linie Anlass für Überlegungen sein, wie künftig Menschenleben vor den Folgen eines solchen Naturereignisses zu schützen sind. Auch die materiellen Schäden für tausende von ihnen sind immens. Neben dem Schutz von Menschenleben sind auch Vorkehrungen notwendig, damit eine Überschwemmung nicht so vielen Menschen wirtschaftlich schadet oder sie gar wirtschaftlich ruiniert. Materielle Schäden durch eine solche Flut beschränken sich allerdings nicht nur auf zerstörte Häuser, Straßen und Brücken. Das wirtschaftliche Leben in den Katastrophengebieten kam tagelang, teils auch wochenlang zum Erliegen. Künftig sollte man es auch diesbezüglich besser machen.
Ich habe vor ein paar Jahren ein produzierendes Unternehmen beraten, dessen Hauptsitz am Rande der Eifel ist. Dieses mittelständische Unternehmen hat in den letzten Jahren seine Produktion auf andere Länder und Kontinente expandiert. Solange sich die einzige Produktionsstätte und das einzige Rechenzentrum (RZ) der Firma auf demselben Gelände in Westdeutschland befanden, waren spezielle Überlegungen zu RZ-Georedundanz kein Thema. Das RZ ist am Stammsitz der Firma auf zwei verschiedene Gebäude verteilt. Nur der Ausfall des gesamten Campus hätte den RZ-Betrieb beeinträchtigt. Ein solcher Ausfall hätte auch die einzige Produktionsstätte getroffen. Da die Firma ohne Produktion mit dem RZ nicht viel anfangen konnte, übernahm die Führung das unternehmerische Risiko, dass ein regionales Desaster die wirtschaftliche Tätigkeit der Firma für längere Zeit lahmlegen würde.
Dann kam die internationale Expansion mit Fabriken in anderen Ländern. Nun würde der Ausfall des Stammsitzes sowohl die Produktion an diesem Standort als auch das dortige RZ außer Betrieb setzen. Andere Fabriken hätten aber weiter produzieren können, wenn sie eine weiterhin funktionierende IT hätten nutzen können. Da sich jedoch die zentralen Ressourcen der IT allesamt am Stammsitz befanden, kam das Management ins Grübeln. Die Eifel ist ein Erdbebengebiet. Sollte der Stammsitz der Firma vollständig ausfallen, würde auch die vom RZ abhängige Produktion in den anderen Werken des Unternehmens beeinträchtigt. Das war Anlass für Überlegungen zu RZ-Georedundanz.
Erdbeben erwartet, Flut gekommen
Spätestens seit dem 15.07.2021 wissen wir, dass Erdbeben nicht die einzigen regionalen Risiken in der Eifel sind. Die seismischen Erschütterungen könnten in einem kreisförmigen Gebiet von rund 70 km Durchmesser in der nördlichen Eifel und den angrenzenden Regionen RZ-Gebäude so gefährden, dass der RZ-Betrieb zum Erliegen kommt. Das Überschwemmungsgebiet vom Juli 2021 ist jedoch wesentlich größer. Der Ortskern von Geilenkirchen im Kreis Heinsberg war über sechs Tage ohne Strom. Von dort bis Trier, wo zum Beispiel ein Krankenhaus evakuiert werden musste, sind es 140 km Luftlinie.
Nun wurde Geilenkirchen nicht zerstört, sondern stand ungefähr einen Tag lang unter Wasser. Das hat aber für den Stromausfall über sechs Tage ausgereicht.
Nun stellen Sie sich mal vor, eine hypothetische Firma hätte ein RZ in Trier und ein zweites in Geilenkirchen betrieben. Man könnte spekulieren, Rechenzentren in oberen Geschossen und ein Dieselaggregat pro RZ hätten hier geholfen. Aber wie lange reicht der Inhalt des Tanks? Kann ein RZ sechs Tage allein mit Notstrom überleben? Es kommt hinzu, dass in den betroffenen Regionen auch Netz-Provider und die Internet-Versorgung betroffen waren. Was nützt ein RZ, auf das von außerhalb der Flutregion niemand mehr zugreifen kann?
Angekündigte Katastrophen
Viele, insbesondere Politiker, tun so überrascht von den Folgen der Flut in Westdeutschland. Doch das war eine angekündigte Katastrophe, wenn man die Erfahrungen der letzten 20 Jahre allein in der Bundesrepublik berücksichtigt. Dass Norditalien immer wieder von ähnlichen Überschwemmungen heimgesucht wird – geschenkt. In Deutschland selbst hat es in den vergangenen Jahren mehrfach ähnliche Ereignisse gegeben.
Auch das IT-Management der hypothetischen Firma mit zwei RZs im selben Flutgebiet hätte es besser wissen können. Seit Ende 2018 kann man die „Kriterien für die Standortwahl von Rechenzentren (RZ)“ auf der Webseite des Bundesamts für Sicherheit in der Informationstechnik nachlesen. Das Papier wurde Ende 2019 in überarbeiteter Fassung veröffentlicht. Seit Jahren halte ich ein Seminar dazu.
Ein Papier, das sich wie eine Prophezeiung liest
Ein paar Zitate aus dem besagten BSI-Papier lesen sich angesichts der jüngsten Katastrophe wie Prophezeiungen:
- Das RZ muss mit allen für den Betrieb erforderlichen Einrichtungen inkl. der Zuwegungen mindestens 2 m oberhalb des höchsten Hochwassers seit 1960 (HHW1960) liegen.
- Ein höchstverfügbares RZ muss so hergerichtet werden, dass alle betriebswichtigen Einrichtungen bis zu einer Überflutung der Rückstauebene um bis zu 100 cm vollkommen störungsfrei arbeiten.
- Da es nicht möglich ist, zukünftige potenziell schädliche Situationen und Ereignisse ausreichend genau vorherzusagen, sollten einander Georedundanz gebende RZ einen Mindestabstand von ca. 200 km zueinander haben.
- Grundsätzlich soll innerhalb eines Flusssystems maximal ein RZ einer Georedundanzgruppe betrieben werden. (Das ganze Katastrophengebiet von 2021 liegt innerhalb des Flusssystems des Rheins.)
- Abweichend davon können weitere RZ der Redundanzgruppe innerhalb des gleichen Flusssystems betrieben werden, wenn diese mit allen für den Betrieb erforderlichen Einrichtungen inkl. der Zuwegungen mindestens 5 m oberhalb des höchsten Hochwassers seit 1960 (HHW1960) angesiedelt sind.
Es gibt immer ein erstes Mal
Zentrale IT-Standorte sind nicht nur Risiken durch Überschwemmung ausgesetzt. Das oben zitierte BSI-Papier nennt eine ganze Reihe anderer Risiken: von den hier bereits erwähnten seismischen Gefahren über Flugzeugabstürze bis hin zu großflächigen Evakuierungen zwecks Entschärfung von Fliegerbomben vom Zweiten Weltkrieg. Heute sind aus verständlichen Gründen alle Blicke gen Himmel und auf den Deutschen Wetterdienst gerichtet. Aber vor wenigen Monaten war es ein Großbrand in Straßburg, der ein ganzes Cloud-Rechenzentrum vernichtete. Die Flut vom Juli 2021 wird leider nicht das letzte Desaster sein, das uns ereilt. Menschen, ihr Hab und Gut und ihr Einkommen sind vor solchen Gefahren zu schützen. Auch wir in der IT haben dazu Hausaufgaben zu erledigen.
Dein Kommentar
An Diskussion beteiligen?Hinterlassen Sie uns Ihren Kommentar!