Sonnencreme gegen Systemcrash? – Welchen Einfluss die Sonnenaktivität auf IT-Infrastrukturen haben kann
07.11.22 / Maren Poppe
aus dem Netzwerk Insider November 2022
Mit dem Beginn des 25. Sonnenzyklus und zunehmender Aktivität der Sonne sind nicht nur Auswirkungen auf das Klima, sondern auch auf IT-Systeme möglich: Eintreffende kosmische Strahlung in Form von geladenen Teilchen kann auf der Erde Materialien durchdringen und den Wert eines Bits umkehren. Doch was heißt das für IT-Infrastrukturen?
Von Sonnenflecken und kosmischer Strahlung
Unsere Sonne ist ganz schön aktiv: Ständig verändern sich ihre Eigenschaften, es gibt etwa Turbulenzen in den Gasen an der Oberfläche, und Magnetfelder ändern sich laufend. Diese Änderungen sind nicht nur von der Erde aus zu beobachten, sie haben auch einen Einfluss auf unser Leben – trotz großer Entfernung.
Die Sonnenaktivität lässt sich in Zyklen beschreiben, seit etwa 1755 gibt es hierzu vorliegende Informationen. So geht die Sonne alle 9 bis 14 Jahre in einen neuen Aktivitätszyklus über, 2020 hat der 25. begonnen und die Aktivität steigt langsam an. Zunehmende Aktivität bedeutet, die Häufigkeit und Größe der Sonnenflecken nimmt zu, genauso wie die Stärke von unregelmäßigen Sonneneruptionen. Sonnenflecken sind dabei punktierte Abkühlungen in den Gasen, die an der Sonnenoberfläche beobachtet werden können. Sie werden durch Verzerrungen im Magnetfeld der Sonne hervorgerufen. Sonneneruptionen, auch als Flare bezeichnet, sind Gebilde erhöhter Strahlung, die ebenfalls durch elektromagnetische Vorgänge ausgelöst werden. Sie sehen aus wie Gasexplosionen auf der Sonnenoberfläche, und tatsächlich werden dabei vermehrt Teilchen von der Sonne weggeschleudert.
Je vielfältiger die Aktivität, desto mehr kosmische Strahlung geht von diesem Stern aus. Das bedeutet, dass hochenergetische Teilchen, meistens Protonen, auch in Richtung Erde fliegen. Durchschnittlich 1000 Teilchen pro Quadratmeter treffen jede Sekunde auf die Erdatmosphäre, doch nur wenige erreichen die Erdoberfläche. Denn in der Atmosphäre können diese Teilchen Wechselwirkungen mit den dort angesiedelten Gasen eingehen. Der wissenschaftliche Konsens derzeit ist, dass auch der jetzige Sonnenzyklus – wie die beiden vorangehenden – verhältnismäßig milde Aktivitäten haben wird. Der Höhepunkt der Aktivität wird auf Juli 2025 geschätzt (± 8 Monate).
Doch was bedeutet das für uns auf der Erde? Einige Studien lassen den Schluss zu, dass durch die erhöhte Sonnenaktivität zunehmender Niederschlag und veränderte Wassertemperaturen insbesondere in der Nähe des Pazifiks verursacht werden können. Mitunter wurde allerdings auch die Korrelation der vermehrten Strahlung und des Auftretens von Epi- und Pandemien mit einem Ursache-Wirkungs-Zusammenhang verwechselt. Schon 2017 konnte dies durch Studien widerlegt werden, sodass zumindest mir glücklicherweise keine aktuellen Verschwörungstheorien bekannt sind.
Doch was hat das Ganze mit IT-Sicherheit zu tun? Das Grundprinzip der IT-Sicherheit, oder, wenn wir noch etwas allgemeiner sprechen, der Informationssicherheit, ist es, Systeme, Netzwerke und Informationen in Bezug auf ihre Vertraulichkeit, Verfügbarkeit und Integrität zu schützen. Schutz bedeutet dabei immer vor äußerem, unerwünschtem und unbefugtem Einfluss. Durch das Auftreten kosmischer Strahlung auf IT-Komponenten kann es tatsächlich zu Fehlfunktionen kommen.
Was sind Bitflips?
Im deutschen Sprachraum sind Bitflips auch als Bitkipper und Bitfehler bekannt. Damit wird eine spontane Wertänderung eines einzelnen Bits, also etwa das Kippen von Wert 0 auf 1 oder andersrum, bezeichnet.
Die Ursachen dafür können vielfältig sein, unter anderem kosmische Strahlung. In diesem Fall gehören sie in die Kategorie der Single Event Upsets (SUE), die einen spontanen, doch das betroffene Bauteil nicht dauerhaft beschädigenden Fehler bezeichnen. Ursache dieser Fehler ist der Durchgang hochenergetischer ionisierender Teilchen durch Materie und das Abgeben ihrer Energie oder Ladung an das umliegende Material. Ist dieses Material ein Halbleiter, kann es zur Veränderung des Zustands, also dem Flippen des Bits kommen.
Die dadurch hervorgerufenen Fehler können von unmerklich und irrelevant – etwa in einem Prozess einer Applikation, der derzeit nicht genutzt wird – zu komplettem Fehlverhalten des Systems, das nur durch einen Neustart zu beheben ist, reichen. Wir haben es also mit der Veränderung von Daten und den in diesen Daten transportierten Informationen zu tun – eine Verletzung der Integrität.
Bitflips durch die Sonne – eine reale Gefahr?
Lokation ist wahrscheinlich der wichtigste Faktor, um das Risiko durch Bitflips zu ermitteln: Je höher der Standort, desto größer der Einfluss von kosmischer Strahlung. In der Luft- und Raumfahrt ist das Risiko tatsächlich hoch, und Maßnahmen, die einen Schaden oder die Eintrittswahrscheinlichkeit dieser Single Event Upsets verringern, werden ergriffen. Auf der Hardwareebene etwa werden Halbleiter entweder mit einer schützenden Silikonschicht ummantelt oder statt aus Silizium aus strahlungsunempfindlicherem Saphir oder Galliumarsenid hergestellt. Die Produktionskosten für derartige Bauteile sind natürlich ebenfalls intergalaktisch hoch.
Die Magnetosphäre der Erde schützt uns jedoch normalerweise vor kosmischer Strahlung, daher ist auf Höhe des Meeresspiegels keine allzu hohe Wahrscheinlichkeit von Bitflips durch kosmische Strahlung anzunehmen. Allerdings gibt es einen Faktor, der das Auftreten von Bitflips mit der Zeit immer wahrscheinlicher macht: der allgemeine Fortschritt in der Computerchip-Herstellung. Gordon Moore, Mitbegründer von Intel, hat 1965 vorausgesagt, dass sich die Anzahl der Transistoren, die in einen integrierten Schaltkreis festgelegter Größe passen, rund alle zwei Jahre verdoppeln wird. Transistoren sind dabei elektronische Halbleiter-Elemente, die meist als An- und Ausschalter fungieren und dadurch anfällig für SUEs sind.
Einfach und für unsere Zwecke ausgedrückt besagt diese Mooresche Faustregel: mehr Bits auf kleinerer Fläche. Das bedeutet zwar, dass die Wahrscheinlichkeit eines auftreffenden kosmischen Teilchens potentiell abnimmt, weil sich die Zielfläche verkleinert. Dafür sind die Auswirkungen eines solchen Teilchens potentiell größer und nicht mehr nur auf ein einzelnes Bit begrenzt. Auch die benötigte Energie für das Flippen eines einzelnen Bits nimmt ab.
Genauso spielt die Größe der Recheneinheit für die Wahrscheinlichkeit des Auftretens eine Rolle. Supercomputer sind verhältnismäßig anfällig. Im Los Alamos National Laboratory sind während einer sechsmonatigen Testphase einer neuen Hochleistungsrecheneinheit rund 150 Bitflips aufgetreten, die wahrscheinlich auf kosmische Strahlungseinwirkung zurückzuführen sind.
So wurde bei Wahlen in Belgien 2003 ein neues elektronisches Wahlsystem eingesetzt. Auf IT-Sicherheit wurde bei der Konzipierung großer Wert gelegt, schließlich sollten die Wahlergebnisse unverändert im Wahlamt ankommen und bis zur Veröffentlichung geheim bleiben. Durch einen Bitflip kam es allerdings dazu, dass eine Kandidatin plötzlich knapp 4000 extra Stimmen bekam. Der Fehler fiel nur auf, weil es sich um eine relativ unbekannte Kandidatin handelte, die mehr Stimmen hatte als ein anderer etablierter Kandidat. Es wurde eine Neuzählung der physischen Sicherheitskopien der Wahlscheine angestoßen. Schaut man noch einen Schritt weiter auf Medizingeräte wie Herzschrittmacher und Neurostimulatoren in der Epilepsiebehandlung, so gibt es Fälle von Fehlverhalten durch Single Event Upsets, die auf kosmische Strahlung zurückgeführt werden. Bei der Herstellung dieser Geräte ist eine Notfallstrategie im Falle eines Fehlverhaltens sogar lebensnotwendig.
Die Ergebnisse einer Google-Studie zur Ursache und Häufigkeit von Bitflips auf der Erdoberfläche legen allerdings nahe, dass Bitflips an sich schon selten sind und viel häufiger durch fehlerhafte Hardware als kosmische Strahlung erzeugt werden.
Wie kann ich meine IT-Infrastruktur vor Bitflips schützen?
Die Investition in eigens strahlengeschützte Hardware, wie etwa auf Raumstationen oder in Flugzeugen, mag nur in den wenigsten Fällen gerechtfertigt und empfehlenswert sein. Ein grundsätzliches Abschirmen gerade der Rechenzentrums-Räumlichkeiten gegen äußere Strahlungseinwirkung ist hingegen eine Standardmaßnahme, die auch die Eintrittswahrscheinlichkeit von Bitflips durch jegliche Strahlungseinwirkung minimiert.
Grundsätzlich sollte der Schutz der eigenen IT-Infrastruktur aus einer allgemeinen Perspektive betrachtet werden. Eine Risikoanalyse aller relevanten Infrastrukturen, Systeme, Applikationen und Komponenten gehört zu den Grundlagen der Informations- und IT-Sicherheit. Um ein ganzheitliches Bild der eigenen Umgebung und der spezifischen Gefahren der einzelnen Teile zu erhalten, müssen diese erstmal bekannt sein. Dazu braucht es nicht nur ein Asset-Register, also eine Liste aller IT-Komponenten, die verwaltet werden. Wichtig ist ein umfassendes Asset Management: Im Kontext der Informationssicherheit stellt ein Asset etwas mit Wert für das jeweilige Unternehmen dar. Assets sind dabei meistens Kategorien, etwa Laptops im Allgemeinen als mobile Arbeitsgeräte, Informationen verschiedener Vertraulichkeitsklassen, Mitarbeiter in verschiedenen Abteilungen und auch Prozesse. Diese Assets werden hinsichtlich ihres Schutzbedarfs und ihrer Kritikalität beurteilt. Das Risikomanagement geht einen Schritt weiter und fragt, wovor Assets geschützt werden müssen. Darin sollten dann der Schutz vor Strahleneinwirkung und das Auftreten von Single Event Upsets betrachtet und individuell eingeschätzt werden. Wie wir gesehen haben, kommt die Risikoanalyse einer Steuereinheit in einem Flugzeug für unseren Fehlerfall zu ganz anderen Ergebnissen als die eines Servers im Keller eines Unternehmens oder sogar des Telefons der Geschäftsführung.
Der Schutz kann auch beim Hersteller einzelner Komponenten gesucht werden: Single Event Upsets und ihre Auftrittswahrscheinlichkeit, wodurch auch immer verursacht, werden in den technischen Daten von Bauteilen betrachtet und adressiert.
Das Erkennen von Bitfehlern ist nicht wirklich schwierig. Die Richtigkeit und damit Integrität von Daten kann durch eine Prüfsumme (oder Englisch Checksum) geprüft werden. Dieser Wert wird aus den zu prüfenden Daten selbst erzeugt. Handelt es sich bei den Daten etwa um Zahlen, kann die Prüfsumme zum Beispiel die Quersumme sein. Der Vergleich der Prüfsumme vor und nach der Datenübertragung ist ein vergleichsweise einfacher Indikator für die fehlerfreie Übertragung. Im Falle von willkürlichen Fehlern wie Bitflips ist diese Prüfung sinnvoll, sie schützt jedoch nicht vor einer mutwilligen Veränderung von Daten.
Auch die Prüfung durch Paritätsbits ist möglich. Paritätsbits sind Extra-Bits, die keine Information enthalten, sondern lediglich einem Paket angehängt werden und einen Indikator für die korrekte Übertragung bilden. Schwieriger wird es bei der Korrektur der entdeckten Fehler. Häufig treten Bitflips im Arbeitsspeicher auf, beziehungsweise dort haben sie einen potentiell größeren Effekt. Es gibt die Möglichkeit sogenannter Error-Correction-Code-Speicher, die verfälschte Daten identifizieren und direkt korrigieren können. Allerdings ist dies recht kostspielig und lohnt sich erst, wenn Anwendungen und Prozesse kritisch sind.
Redundanzen, sowohl in der Speicherinfrastruktur als auch bei kritischen Applikationen, bilden eine Maßnahme, die für eine Vielzahl anderer Fehler sinnvoll ist. Bei besonders kritischen Prozessen kann es sogar dienlich sein, diese in Redundanz laufen zu lassen, um direkt auf eventuelle Fehler reagieren zu können und keine Beeinträchtigung zu erfahren. Im Falle der Luft- und Raumfahrttechnik wird wegen der hohen Eintrittswahrscheinlichkeit auf eine drei- bis fünffache Redundanz gesetzt. Dabei bestimmt eine Mehrheitsabfrage das richtige Ergebnis, denn das Auftreten zweier oder mehrerer gleichzeitiger Fehler gilt als höchst unwahrscheinlich.
IT-Sicherheitsanforderungen, die sich auch auf dieses Phänomen beziehen können
Die Sicherheitsanforderungen an die IT-Infrastruktur sind traditionell unspezifisch, daher werden wir keine detaillierten Maßnahmen zu einzelnen Bitfehlern im IT-Grundschutzkompendium oder der ISO-2700x-Reihe finden. Übergeordnete Maßnahmen, die auch auf diesen konkreten Fall angewendet werden können, gibt es jedoch einige.
Allein auf Redundanz bezogen existieren in vielen Bereichen Maßnahmenvorgaben. Redundanz in der grundsätzlichen Netzwerkarchitektur zu beachten, fordern der IT-Grundschutz Baustein NET.1.1 Netzarchitektur und -design oder das ISO 27001 Control 17.2. Redundanzen, natürlich je nach Kritikalität der Systeme. Den Schutz vor elementaren Gefährdungen finden wir im gleichen Baustein und in Control 11.1.4 Schutz vor externen und umweltbedingten Bedrohungen. Maßnahmen zum Schutz des Datenaustauschs, gerade mit externen Dritten, also über das Internet, beziehen sich meist zuerst auf die Vertraulichkeit der Informationen: Niemand soll unbefugten Zugriff erhalten. Bei der Cloudnutzung kommen Überlegungen zur Verfügbarkeit hinzu (etwa in ISO 27017).
Neben Präventivmaßnahmen finden sich auch Anforderungen an die Prüfung von Prozessen und Daten. So schreibt das BSI in Baustein CON.8 gegen das Fehlerauftreten in Softwareentwicklungsumgebungen eine regelmäßige Integritätsüberprüfung der Entwicklungsumgebung vor (A.19). Grundlegend muss eine Detektion von sicherheitsrelevanten Ereignissen (DER.1, A.12.4) und anschließende Behandlung dieser Ereignisse und eventueller Sicherheitsvorfälle gegeben sein (DER.2.1, A.12.6.1).
Und mal am Rande: Fehler in einzelnen Bits sind im Rahmen der Norm IEC/DIN 60730 für automatische elektrische Regel- und Steuergeräte, die in Haushaltsgeräten wie Waschmaschinen zu finden sind, explizit genannt. Wodurch sie nun hervorgerufen werden, ist in diesem Fall egal.
Fazit
Zwar besteht durch den Eintritt der Sonne in eine aktivere Phase des Sonnenzyklus keine gesteigerte Gefahr für IT-Komponenten und Systeme, allerdings ist die Wahrscheinlichkeit des Auftretens von Bitflips nach wie vor gegeben. Vielleicht können wir auch davon ausgehen, dass Hardware, gerade in Hochleistungsrechnern, mit zunehmender Leistungsfähigkeit durch kosmische Strahlung anfälliger für Single Event Upsets wie Bitflips wird.
Die eigene Infrastruktur vor Umwelteinflüssen zu schützen, muss durch Maßnahmen in jedem Informationssicherheitsmanagementsystem adressiert werden. Im Normalfall sollte es aber ausreichen, sich auf den eingebauten Schutz bei Komponenten und Applikationen zu verlassen und genügende Redundanzen für kritische Systeme bereitzustellen.
Wenn Sie das nächste Mal von Ihrem Systemadministrator bei einem nicht reproduzierbaren Fehler hören, es müsse sich wohl um einen Bitflip oder ein Bitkippen gehandelt haben, werden Sie nach dieser Lektüre doch vielleicht etwas schmunzeln können.