Serverräume A und B – langfristig im Georedundanz-Verbund
Überlegungen zu Ausfallsicherheit haben gewisse Gemeinsamkeiten mit Versicherungsmathematik. Mit vorbeugenden Maßnahmen und intelligenter Auslegung der grundlegenden Infrastrukturen aus Netzwerk und Serverräumen lassen sich Vorkehrungen für bestimmte Störungen erreichen, die eine erhebliche Beeinträchtigung des Betriebs der Universität oder ihrer Einrichtungen wie der Bibliothek bedeuten würden. Die möglichen Störungen reichen von der Unterbrechung strategischer Netzwerktrassen durch die vielfältigen Bauaktivitäten in der Stadt über größerflächige Stromausfälle bis hin zu versuchten physischen Einbrüchen oder Angriffe über das Internet in vielfältiger Form. Absicherungen gegen bestimmte Arten von Störungen und Beeinträchtigungen sind immer mit Kosten verbunden, so dass eine Abwägung getroffen werden muss. Dieses lässt sich leicht an der Dimensionierung einer Notstromversorgung vergegenwärtigen: Umso mehr Maschinen während eines Stromausfalls mit Energie versorgt und gekühlt werden müssen, umso größer müssen die Pufferbatterie und das Stromaggregat (in den meisten Fällen ein Dieselgenerator) ausfallen.
Langfristiges Ziel - Erhöhte Ausfallsicherheit für zentrale Infrastrukturen und Dienste
Eine moderne Forschungsuniversität braucht stabile IT-Basisinfrastrukturen, um eine optimale Unterstützung der Forschenden in allen Disziplinen zu bieten, Studierende mit skalierenden Angeboten zu versorgen und die Grundlagen für eine effektive Verwaltung zu gewährleisten. Mit den derzeit gemeinsam mit der Stabsstelle Bau und Entwicklung der Universität geplanten und in Umsetzung befindlichen Maßnahmen wird versucht, für die Ebene der Basisinfrastrukturen (Serverräume und Netz) die Folgen von Ausfallzeiten zu kalkulieren und zu managen. Die konkrete Umsetzung bezieht sich auf die Herstellung einer weitgehend georedundanten Situation für die kombinierte Betrachtung der Serverräume A und B. Von diesen ausgehend erfolgen die Überlegungen zu Gestaltung der Netzstruktur. Hier sind bereits weitgehende Grundlagen auf der Ebene der physischen Netzwerkverkabelung geschaffen worden.
Die Basisinfrastruktur von Netz- und Serverräumen ist so ausgelegt, dass als wahrscheinlich angesehene Szenarien, die zu Ausfällen führen, beherrschbar bleiben oder ein schnelles Wiederanfahren möglich ist. Die abhängigen Anwendungen werden bei der Planung, die in Teilen bereits umgesetzt ist, berücksichtigt. Der Betrieb solcher Serverräume muss nach dokumentierten Sicherheitsrichtlinien erfolgen. Hierzu zählen Serverräume, die für ausgewählte strategische Dienste mit ausreichender Redundanz ausgelegt sind, und damit den Kriterien genügt, die das Rechenzentrum für deren Betrieb anlegt. Für das Hosting von forschungsrelevanten Maschinen und Infrastrukturen müssen ausreichend Kapazitäten bereitgestellt werden, die dynamisch den Bedarf aus den Fakultäten decken können.
Resilienz bei Störungen
IT-Dienste zählen für alle Mitglieder der Universität zu den zentralen kritischen Arbeitswerkzeugen. Eine Nichtverfügbarkeit stellt das Funktionieren der Organisation in erheblicher Form in Frage, da viele Vorgänge, wie beispielsweise das Campus-Management (HISinOne), SAP-Prozesse, E-Mail (z.B. Exchange der Verwaltung) oder das Learning-Management-System (ILIAS) elektronisch abgewickelt werden. Um diese Dienste anbieten zu können, müssen vorgelagerte IT-Systeme, wie die Virtualisierung, Storage und insbesondere das Netz verfügbar sein. Diese Basisdienste erfordern ihrerseits tieferliegende Infrastrukturen wie Gebäude, die mit Energie und Klimatisierung versorgt werden müssen.
Hierfür wurde durch die Planung und Inbetriebnahme des Serverraumstandortes B im KG II ein wesentlicher Schritt getan. So werden die beiden Standorte Hermann-Herder-Str. 10 und KG II gemeinsam als ein System betrachtet, das in zentralen Komponenten georedundant ausgelegt ist. Damit verfügt die Universität über zwei Anschlüsse an das BelWü, verteilt über zwei räumlich getrennte Serverräumen. Geht nun eine Seite offline – sei es durch einen größerflächigen Stromausfall oder durch das Anbaggern eines zentralen Lichtwellenleiters –, dann kann der Anschluss an die Welt immer noch aufrecht erhalten werden. Bestimmte Aufgaben und Funktionen auf den höheren Ebenen müssen dann von der anderen Seite mit übernommen werden. Um also eine hohe Verfügbarkeit eines bestimmten Geschäftsprozesses (oder IT-Dienstes) überhaupt erreichen zu können, müssen alle Basisinfrastrukturen, auf die dieser Prozess bzw. Dienst aufbaut, mindestens dessen erwartete Verfügbarkeit haben. Das bedeutet, dass ein Ausfall des Netzes oder des Virtualisierungsservers einen Ausfall des Dienstes von mindestens dieser Zeitspanne direkt zur Folge hat.
Das langfristige Ziel des Rechenzentrums besteht in einer klar gestaffelten Verfügbarkeit von IT-Infrastruktur oder -Diensten nach Wichtigkeit im Gesamtsystem Universität. Dieses definiert Zeiträume für die Wiederherstellung einer bestimmten Form des Betriebes nach einem definierten Störungsfall. Zentrale IT-Infrastrukturen wie das Campus-Datennetz, Telefonie und E-Mail sowie Dienste der zentralen Verwaltung sollen auf diese Weise mit den Grundlagen für eine hohe Verfügbarkeit versehen werden. Mit der Schaffung des Redundanzstandorts wird versucht, für die Ebene der Basisinfrastrukturen (Serverräume und Netz) eine Ausfallsicherheit zu erreichen, die in Richtung der Verfügbarkeitsklasse 1 (bzw. 2) laut Definition des BSI [2013] geht. Mit dem Umzug der ersten Basisdienste ins KG II wird weiterhin angestrebt, wichtige Basisdienste wie Mail, Storage und Virtualisierung an beiden Standorten am Start zu haben.
Standorte für das Machine-Hosting
Das längerfristige Ziel des Rechenzentrums besteht darin, von der Versorgung mit Serverräumen in einer verteilten, kleinteiligen und zersplitterten Struktur wegzukommen. Die bisherige Struktur reicht von unzureichend dimensionierten und nicht-redundanten Serverräumen der Verwaltung bis zu kleinteilig aufgebauten Strukturen der einzelnen Fakultäten. Diese Situation verhindert eine effektive Abschottung gegen physische und netzbasierte Gefahren. Dieses kann unter Umständen erhebliche negative Auswirkungen auf den Betrieb der Universität haben, horribile dictu ein längerer Stillstand der Verwaltung, der Verlust strategischer Forschungsdaten oder auch der Missbrauch der Uni-Infrastrukturen für Angriffe auf Einrichtungen Dritter. Neben dem potenziell erheblichen Image-Verlust für eine führende Forschungseinrichtung folgen auf genannte Vorkommen erhebliche finanzielle Schäden.
Die folgenden vier über das Stadtgebiet verteilten Standorte werden im Moment ausgebaut beziehungsweise mit den Kollegen vor Ort evaluiert (siehe Abbildung):
-
Rechenzentrum, Hermann Herder-Str. 10, Institutsgebiet
-
Maschinensaal I (Erdgeschoss) – dieser Maschinensaal soll in Zukunft gemeinsam mit einem Teil des Maschinensaals III im KG II die höchste Sicherheitsstufe am Campus erreichen.
-
Maschinensaal IIa+IIb (Untergeschoss) - hier sind die Umbauten abgeschlossen und es werden zunehmend Maschinen Dritter untergebracht.
-
Kollegiengebäude II (KG II, Untergeschoss), zentraler Campus – der Maschinensaal III ist weitgehend fertiggestellt, jedoch bestehen noch Einschränkungen bei der Klimatisierung. In weiteren Schritten wird es hier einen abgegrenzten Bereich für Maschinen Dritter geben, der über einen gesonderten Zugang verfügt.
-
Bio-Campus – Für diesen Bereich werden im Moment Diskussionen gemeinsam mit Stabsstelle Bau und Entwicklung (SBE) und den Kollegen vor Ort geführt. Grundsätzlich geeignete Flächen bestehen beispielsweise im Gebäude der Biologie II/III oder dem ZBSA.
-
Technische Fakultät am Flugplatz und Universitätserweiterungsgebiet – Hier werden gemeinsam mit den Kollegen vor Ort Optionen diskutiert, wie beispielsweise die Nutzung der Technikflächen auf dem 3. OG im Gebäude 103.
Ausblick
Alle Maßnahmen dürfen den laufenden Betrieb nicht stören, allenfalls kurze Unterbrechungen bei absolut notwendigen Umschaltungen sind akzeptabel. Die Organisation der Baumaßnahmen wird dadurch sehr komplex und zieht sich in die Länge. Weil mit den Umbauten geänderte Anforderungen an Sicherheit und Verfügbarkeit einhergehen, müssen alle Schritte mit der Neuformulierung von Richtlinien bzw. Nutzerordnungen und darauf aufbauenden Diensten harmonisiert werden.
Sobald der Umzug in das KG II abgeschlossen ist, kommt der Maschinensaal I auf dem Erdgeschoss in der Hermann-Herder-Straße an die Reihe. Im Moment finden die gemeinsamen Vorbereitungen mit Vermögen und Bau des Landes, SBE und einem Planungsbüro statt. Da eine Reihe erheblicher Sanierungen anstehen, wird dieser Umbau einige Zeit in Anspruch nehmen und immer mal wieder für kurze Unterbrechungen bestimmter Dienste oder Netzwerkstrecken sorgen.
Die Maschinensäle IIa und IIb in der Hermann-Herder-Straße 10 im Untergeschoss sind bereits jetzt voll im Betrieb und können von Einrichtungen des Campus mitgenutzt werden. Anfragen können per Mail an das Rechenzentrum geschickt werden. Die Maschinensaalbenutzungsordnung beschreibt die Varianten der Nutzung: Einbau eigener Hardware, Einrichtung virtueller Server oder auch das Aufstellen größerer Cluster. Das schnelle Netz auf dem Campus sorgt dafür, dass die Daten ohne zusätzliche Latenzen an alle angeschlossenen Gebäude verteilt werden.
Referenzen
[BSI:2013] „Band G, Kapitel 2: Definitionen“. 2013. Bundesamt für Sicherheit in der Informationstechnik. https://www.bsi.bund.de/SharedDocs/Downloads/DE/BSI/Hochverfuegbarkeit/BandG/G2_Definitionen.pdf?__blob=publicationFile&v=1. [zuletzt abgerufen 25.04.2018].
Dirk von Suchodoletz