Umzug von IT-Infrastruktur in das KG II – auf dem Weg zur Georedundanz
Die Maschinensäle 1 und 2 im Gebäude des Rechenzentrums werden seit 2014 kontinuierlich modernisiert. Wir haben ausführlich darüber im Anruf berichtet. Der Maschinensaal 3 im Keller des KG II wird seit 2015 umgebaut und steht nun für erste Komponenten zur Verfügung. Die fünf Reihen mit wassergekühlten 19-Zoll Schränken sind bereits aufgebaut. Allerdings lässt die zur Verfügung stehende (alte) Kühlanlage derzeit noch keine komplette Belegung aller Schränke mit IT-Anlagen zu.
Ohne Netzwerkinfrastruktur geht natürlich gar nichts. Daher wurden zunächst Netzwerkkomponenten für den Betrieb installiert. Hier ist aber der geplante Zustand noch nicht erreicht. Im KG II befindet sich einer der beiden redundanten Aufpunkte für die Außenverbindung in das Baden-Württemberg-Netz belwue. Ein Hochleistungs-Router für eine 100 GBit/s-Außenanbindung steht bereits im RZ, muss aber noch gründlich getestet und konfiguriert werden, ehe er an seinem Bestimmungsort im KG II aufgestellt werden kann. Für die inneruniversitären Netzverbindungen stehen aber ausreichend Netzkomponenten zur Verfügung. Insbesondere existiert eine redundante Anbindung des KG II-Maschinensaals an das Rechenzentrum durch zwei getrennt verlaufende LWL-Trassen (für Glasfaserkabel) zwischen RZ und KG II.
Das RZ hat im Rahmen seiner Strategie zur Erhöhung der Verfügbarkeit der Services beschlossen, als erste Systemkomponenten abseits der Netzwerkinfrastruktur Teile der Virtualisierung und Teile des zentralen Speichersystems (EMC² Isilon) zu verlagern. Damit erhöhen wir die Datensicherheit in hohem Maße, denn es wurde der Redundanzcluster des Speichersystems umgezogen, also der Teil, auf den die wichtigsten Daten, neben der Bandsicherung auf TSM, zusätzlich gespeichert werden. Dazu gehören insbesondere alle Homeverzeichnisse der Studierenden und Mitarbeiter/innen der Universität, aber auch alle Daten, die im Rahmen der Grundversorgung für die Einrichtungen, Institute und Professuren gespeichert werden. Bei einem (hoffentlich niemals eintretenden) Gesamtausfall des RZ-Hauptstandortes in der Hermann-Herder Straße könnten diese Daten nach einiger Zeit wieder zur Verfügung gestellt werden. Das Rechenzentrum arbeitet derzeit intensiv an einem Konzept für die georedundante Auslegung wichtiger Dienste.
Teile der nunmehr im KG II aufgestellten Komponenten der Virtualisierungs- und Speichersysteme waren bereits seit ca. zwei Jahren im RZ im Betrieb (fünf Server für VMware ESX Virtualisierung und vier Speicherknoten mit jeweils 130 TB Kapazität). Insbesondere Speichersysteme bestehen aus einer Vielzahl von Festplatten. Es ist bekannt, dass diese empfindlich reagieren, wenn sie nach so langer Betriebszeit ausgeschaltet werden, abkühlen und dann eventuell noch physikalisch bei einem Transport “geschüttelt und gerüttelt” werden. Es kann durchaus passieren, dass sie anschließend ihren Dienst versagen und nicht mehr anlaufen. Daher haben die RZ-Mitarbeiter die Systeme nicht selbst transportiert, sondern es wurde in Zusammenarbeit mit dem Systemhersteller eine spezialisierte Spedition beauftragt. Sie kann entsprechende Vorkehrungen treffen, die Systeme sicher verpacken und erschütterungsfrei transportieren.
So hat der gesamte Umzug weitgehend fehlerfrei funktioniert und alle Systeme konnten wieder in Betrieb genommen werden. Bei einem der ESX-Server musste allerdings trotz aller Vorsichtsmaßnahmen das Mainboard getauscht werden, da er nicht mehr gebootet hat. Einmal mehr hat sich gezeigt, wie kritisch es sein kann, wenn Serversysteme, die schon längere Zeit in Betrieb waren, ausgeschaltet und erst nach einiger Zeit wieder eingeschaltet werden. Wichtig für den Gesamterfolg des Umzugs war die abteilungsübergreifende Kooperation im RZ. Dadurch dass ein Mitarbeiter der Netzwerkabteilung die ganze Zeit vor Ort zur Verfügung stand, konnten Probleme bei der komplexen Vernetzung unmittelbar gelöst werden.
Da die Systeme vor dem Verpacken und dem Transport abkühlen mussten, wurden sie am Tag vor dem eigentlichen Umzug gegen 16h abgeschaltet. Am Umzugstag selbst waren die System ebenfalls gegen 16h wieder online, so dass der gesamte Umzug – abgesehen von den Vorbereitungsmaßnahmen – ca. 24h in Anspruch genommen hat.
Der Umzug wurde auch genutzt, um den Redundanzcluster mit zwei zusätzlichen Speicherknoten zu erweitern. Im KG II stehen daher jetzt sechs Speicherknoten mit einer Gesamtkapazität von 780 TB. Demgegenüber stehen im RZ 16 Speicherknoten mit höherer Leistungsfähigkeit und insgesamt ca. 2 PB an Kapazität.
Bei der Virtualisierung konnte der Umzug allerdings nicht in einem Rutsch durchgeführt werden, weil immerhin knapp die Hälfte (nämlich fünf) der insgesamt elf vorhandenen VMware ESX-Server zukünftig im KG II ihren Dienst leisten sollen. Da die ESX-Server mit insgesamt weit über 300 virtuellen Maschinen belastet sind, wir aber den Nutzer/innen keine Downtime ihrer VMs von ca. einem Tag zumuten wollten, wurden zunächst nur drei Server umgezogen. Die verbleibenden Server wurden dann zwar bis an die Leistungsgrenze belastet, alle verbleibenden Virtuellen Maschinen liefen aber weiter. Es musste nicht eine einzige VM ausgeschaltet werden.
Die nächsten Schritte
Nach dem erfolgreichen Umzug der Speicher- und Virtualisierungskomponenten sollen weitere zentrale Infrastrukturen zumindest teilweise im KG II betrieben werden. Das langfristige Ziel ist die Georedundanz der wichtigsten Dienste des Rechenzentrums. Das ist aber nicht allein damit getan, dass ein paar Hardware-Server im KG II aufgestellt werden, sondern diese Komponenten müssen im Bedarfsfall dann auch die Services übernehmen, die zuvor im gerade ausgefallenen Standort betrieben wurden. Es gibt eine Reihe verschiedener Ansätze wie solche Ausfallszenarien behandelt werden können. Im Idealfall - der aber auch die höchsten Kosten verursacht – geschieht die Übernahme des Dienstes automatisch. Dies kann z.B. dadurch erreicht werden, dass der jeweilige Service ständig an beiden Standorten betrieben wird - mit entsprechend hohem Verbrauch an Ressourcen. Nicht jeder Dienst kann aber überhaupt auf diese Weise betrieben werden. In der nächsten Zukunft wird das RZ alle zentralen Dienste der Reihe und Wichtigkeit nach untersuchen und entsprechende Verfügbarkeitsziele definieren und die notwendigen Maßnahmen einleiten.
Als einer der wichtigsten Dienste überhaupt kann sicher der Mailservice bezeichnet werden. Dieser wurde vor kurzer Zeit auch mit neuer Hardware versorgt. Dabei wurde auch konzeptionell darauf geachtet, dass ein redundanter Betrieb an den beiden Standorten RZ und KG II möglich ist. Daher wird ein Teil der Mailserver-Hardware in Kürze ebenfalls in den KG II Maschinensaal umgezogen.
Detlev Degenhardt, Dennis Wehrle