Computer-Archäologie von Forschungsdaten - Detektivspiel mit alter Hardware und scharfem Verstand
Es fehlten nur die Handschellen am Aktenkoffer, als unter Bewachung ein Kasten mit 17 8-Zoll-Disketten von Mitte der 1980er Jahre mit medizinischen Forschungsdaten in die Professur für Kommunikationssysteme gebracht wurde. Der Auftrag an die Funktionale Langzeitarchivierungsgruppe: Herausfinden, was darauf gespeichert ist.
Ein erster Augenschein gab nur wenige Hinweise. Aufkleber wiesen auf die Produzenten der Disketten hin: BASF, Broeder und HP. Aber es war nirgends vermerkt, mit welcher Art von Geräten und mit welchem Betriebssystem sie beschrieben waren. Einziger weiterer Hinweis waren teilweise beigelegte Listings mit wiederkehrendem Aufbau. Diese Rätsel weckte zusätzlich den Ehrgeiz der Kollegen, die Unterstützung von der australischen Gastwissenschaftlerin Denise de Vries erhielten, Professorin für Computer-Archäologie und Forensik an der Flinders-Universität in Adelaide.
Die Diskettenformate 5,25 Zoll und 3,5 Zoll sind heute fast vollständig verschwunden, aber vielen mit Geburtsjahrgang 1985 und früher noch durch eigene Anschauung bekannt. Disketten der Größe 8 Zoll sind noch älter und waren weit weniger verbreitet. Die erste Hürde war also, ein Laufwerk zu finden, dessen Schlitz breit genug war, eine solche Diskette aufzunehmen.
Computer-Oldtimer
Mit Unterstützung eines Kollegen des Nationalarchivs in Neuseeland wurde über einen bekannten Online-Händler ein passendes Laufwerk für EUR 250,00 gekauft, das noch originalverpackt war. Nun ließen sich die Disketten, von denen noch nicht bekannt war, ob sie nicht ihre Magnetisierung und damit die Daten verloren haben, zumindest in ein Laufwerk hineinstecken. Diese brauchen aber Strom und Verbindungskabel zu einem Computer, der die Daten entgegennimmt. Das gekaufte Laufwerk hatte Steckanschlüsse, die auf kein heute übliches System passen. Etwas erleichtert wurde die Situation durch die relative Ähnlichkeit von Diskettenlaufwerken, so dass die vorhandenen Adapter, ursprünglich für die Größen 3,5 Zoll und 5,25 Zoll gebaut, für den Anschluss von 8 Zoll-Laufwerken verwendet werden konnten.
Die technische Kommunikation zwischen Computern und Laufwerken erledigen sogenannte Controller, die feste Bestandteile jeden Computers sind, der Daten auf Speichersysteme schaufelt. Für die Ansteuerung dieser Controllers sind spezialisierte Module in den Betriebssystemen verantwortlich, die außerdem Informationen über die angeschlossenen Speichermedien vorhalten. Das digitale Archäologenteam stand nun vor mehreren Herausforderungen. Es musste Computer finden, deren Controller die geeigneten Befehle übermitteln, die von 8 Zoll-Laufwerken verstanden werden, so dass sie anfangen zu rotieren und den Lesekopf an die richtige Position über der Diskette zu schieben; es musste herausfinden, welches Aufzeichnungsformat und logisches Speicherformat auf den Disketten verwendet wird; und es musste die Signale von der Diskette so umwandeln, dass der Computer etwas damit anfangen kann.
Controller für Diskettenlaufwerke werden seit ca. zehn Jahren nicht mehr verbaut, aber die im Landesprogramm bwPC I beschafften Rechner haben noch solche. Aus Amerika wurde zusätzlich für EUR 200,00 ein Adapter erworben, mit dem die Controller-Signale adaptiert werden können.
Dieser Versuchsaufbau wurde mit einer alten Diskette aus einer RZ-Vitrine und im zweiten Schritt mit den eigentlich zu untersuchenden überprüft, aber die Ergebnisse waren enttäuschend.
Sammeln und Bewerten von Hinweisen
Parallele Recherchen in Foren und bei der Einrichtung, an dem die Disketten vorher aufbewahrt wurden, gaben weitere Hinweise. Die wenigen Angaben, die zusammen mit den Disketten aufbewahrt wurden, deuteten auf IBM-Schreibmaschinen mit angeschlossen Diskettenlaufwerken als Datenspeichern hin, die in den 1980er Jahren öfters verwendet wurden. Als Betriebssystem wurden in der Regel bei solchen Hardware-Anordnungen die ersten Generationen von DOS eingesetzt. Das Speichermanagement in dieser Frühzeit der Computer-Systeme hat wenig mit dem der heutigen Zeit zu tun. Weil die Struktur des Speicherformats bei den 17 Disks unbekannt war, musste sie aus dem ermittelt werden, was sich noch auslesen ließ. Um überhaupt sicher zu stellen, dass noch eine Magnetisierung auf den Disketten vorhanden war, wurde ein Oszilloskop angehängt, mit dem die Stärke des Magnetfeldes gemessen werden konnte, der vom Lesekopf des Laufwerks gemessen und an den Controller übermittelt wird. Man sah im Oszilloskop-Schirm an- und absteigende Magnetstärken, die aber nicht sinnvoll auf logische Strukturen von Bits und Bytes abgebildet werden konnten.
Kryoflux
Disketten sind Magnetspeicher, auf denen kleine Bereiche schwächer oder stärker magnetisiert sind. Diese Bereiche sind nicht scharf voneinander unterschieden, so dass im Übergang solcher Bereiche keine abrupten Wechsel der Magnetisierung zu finden sind, sondern fließende Übergänge. Deshalb ist es bei solchen Speichermedien nicht klar, welche abgegrenzten Sektoren für einen Informationswert stehen. Man muss also erstmal sprichwörtlich den Anfang der Spur finden.
Bei Untersuchungen solcher Art kommt der Kryoflux zum Einsatz. Das ist ein Spezialgerät, das die Funktion des Controllers des Hostcomputers übernimmt und eine passende Schnittstelle für 34polige Diskettenlaufwerke bereitstellt. Mit dem Kryoflux wird eine Vielzahl von Speicherschemata als Software-Paket geliefert, die hier aber keine sinnvollen Ergebnisse lieferten.
Oral History
Computer werden als wesentliches Werkzeug der Digitalisierung angesehen. Magnetspeicher aus der Frühzeit der PCs waren jedoch analoge Medien, denen über heute nur noch schwer nachvollziehbare technische Kniffe digitale Strukturen übergestülpt wurden.
Die Reproduktion dieser Kniffe war nun die Aufgabe der Arbeitsgruppe. Nach vielem Herumprobieren kam der Durchbruch, als man sich vor der Kaffeemaschine mit Kollegen aus anderen Abteilungen über den neuesten Frust austauschte. Willibald Meyer, Leiter der Netzabteilung, hat noch persönlich mit Speichern dieser Art gearbeitet und kannte sich als Ingenieur der Signalelektronik zusätzlich mit internen Details der Datenorganisation aus. Er gab entscheidende Hinweise, wie die Daten auf den Disketten organisiert sind, so dass die mit dem Oszilloskop gemessenen Magnetspuren auf logische Strukturen abgebildet werden konnten.
Dies war allerdings kein einfaches Auslesen, sondern erforderte viel Detailarbeit. Zunächst musste die Kurve an- und absteigender Magnetfeldstärken in einen kontinuierlichen Strom von Nullen und Einsen übertragen werden, einem sogenannten Bitstream. Hierfür wurde in Python eigens ein Interpreter geschrieben. Nun hatte man eine Folge von Bits, die in diesem Stadium noch ohne Bedeutung waren. Dieses Zwischenergebnis wurde mit vielen weiteren Kollegen aus anderen Rechenzentren geteilt, um durch die Vergrößerung der Wissensbasis weitere Anknüpfungspunkte zu finden und durch gegenseitige Korrekturen und Hinweise die richtige Spur zu halten.
Über einen weiteren Kontakt wurde zum ersten Mal der Typ verifiziert, mit dem die Disketten beschrieben wurden: ein HP9845-System. Solche Maschinen wurden in den frühen 1980er Jahren im Forschungsbereich vermarktet. Sie fanden keine große Verbreitung, und der technische Fortschritt ließ sie schnell verschwinden.
Kontext bewahren
Nun hatte man also ein “Landkartenraster" der Disketten, um aus dem Strom von Nullen und Einsen Buchstaben, Satzzeichen, Steuerbefehle oder auch einfach nur Leerzeichen zu produzieren. Nur hatte man keine Idee, was diesen Buchstabensalat erzeugt hat und wie man ihn in etwas zurückübersetzen kann, was mit heutigen Computern ausgegeben werden kann. Der nächste Arbeitsschritt ist die Herstellung eines technischen Kontextes, um eine Repräsentation der Daten zu erhalten, die als Texte, Ergebnislisten oder anderem erkennbar sind.
An der Professur für Kommunikationssysteme beschäftigt sich ein Team unter dem Stichwort Emulation-as-a-Service mit der Aufgabenstellung, alte Software-Umgebungen zu erhalten, obwohl die darunterliegende Hardware nicht mehr existiert. Im Fall der 8 Zoll-Disketten gälte es, deren Inhalt als Image zu sichern und damit vom fragilen physikalischen Träger zu lösen, weil die magnetischen Spuren sich möglicherweise schnell verlieren. Und es wäre ein HP8945-System nachzubauen, das als Emulation innerhalb eines modernen Computersystems liefe und dem die Images als Disketten untergeschoben würden. Wenn dieser Schritt gelänge, stünde die Arbeit der Fachwissenschaftler an den Daten an, wie sie die Forscher aus den 1980er sahen, als sie an den alten HP8945-Maschinen die Tastatur bedienten und auf die Bildschirme schauten.
Bevor diese Emulation aufgebaut wird, muss entschieden werden, ob sich der weitere Aufwand lohnt. Der Zwischenergebnis zeigt, dass die Daten auf den Disketten nicht ganz die Erwartungen halten können. Fällt die Entscheidung zugunsten einer Fortsetzung aus, wartet weiterhin viel Arbeit bei der Entzifferung der Informationen auf den 8 Zoll-Disketten, besonders für die Wissenschaftler aus dem Forschungsgebiet, für das sie produziert wurden.
Professionelles Forschungsdatenmanagement
So spannend dieser Suchprozess sich in der Rückschau anhört, so sehr zeigt er exemplarisch auf, was bei dem Forschungsprojekt versäumt wurde, bei dem die Daten auf den Disketten erzeugt wurden.
Die Urheber der Daten haben sich keine Gedanken gemacht, ob ihre Ergebnisse über die Dauer des Projektes hinweg für Andere wichtig sein können. Das war vor der Erfindung von Computern nicht notwendig. Das Material, auf dem Publikationen oder auch Zwischenergebnisse fixiert wurden, konnte nahtlos in seiner Materialität zur Archivierung verwendet werden. Die Erschließung dessen, was auf Papier oder anderen Materialien festgehalten ist, war vom Prozess der Produktion entkoppelt und nicht zeitkritisch, von Phänomenen wie dem Säurefraß oder biologischer Zerfallsprozesse abgesehen.
Die Daten auf den 8 Zoll-Disketten konnten aber nicht nachgenutzt werden, obwohl sie weder von Säure noch von Bakterien zerfressen waren. Es fehlte lediglich der technische und logische Kontext, um die Daten zu interpretieren. Die Aufgabe der Arbeitsgruppe an der Professur für Kommunikationssysteme war es, diesen technischen und logischen Kontext wieder herzustellen.
Ein solch aufwändiger Rekonstruktionsprozess ist aber nicht jedes Mal leistbar, wenn die Daten von Forschungsprojekten ohne systematisches Datenmanagement aufbewahrt werden. Die Produktion, Verarbeitung und Speicherung von Daten und Ergebnissen muss schon zu Beginn eines Vorhabens systematisch bedacht und dann umgesetzt werden. Aktives Forschungsdatenmanagement gehört zwingend zu einem Projekt, wenn Wissenschaftlerinnen wünschen, mit ihren Ergebnissen über das Ende ihrer Arbeit hinaus zu wirken.
Die Professur für Kommunikationssysteme erarbeitet im Rahmen von Projekten wie bwZWM und ViCE technische Lösungen und organisatorische Konzepte für die Wissenschaftlerinnen der Universität Freiburg und des Landes Baden-Württemberg. Mit Projekten dieser Art sollen Wissenschaftlerinnen, aber auch zentrale Universitätseinrichtungen von der Aufgabe entlastet werden, neben ihrer eigentlichen fachlichen Arbeit sich immer wieder von neuem grundlegende Gedanken machen zu müssen, wie sie ihr Datenmanagement so strukturieren, dass sie grundsätzlichen Ansprüchen genügen, die von der DFG, der Europäischen Union in Horizon2020 oder Wissenschaftsjournalen wie Nature gestellt werden.
Jan Leendertse, Dirk von Suchodoletz, Willibald Meyer
Links
Blog mit Details zum archäologischen Prozess: http://openpreservation.org/blog/2016/09/29/8-inch-disks-hp9845-endeavour-success-at-last/
Projektseite bwZWM: https://www.alwr-bw.de/kooperationen/bwzwm/
Projektseite ViCE: https://www.alwr-bw.de/kooperationen/vice/
DFG - Empfehlungen guter wissenschaftlicher Praxis: http//www.dfg.de/download/pdf/dfg_im_profil/reden_stellungnahmen/download/empfehlung_wiss_praxis_1310.pdf
Open-Access bei Horizon2020: http//www.horizont2020.de/einstieg-open-access.htm
Nature - Anforderungen an Forschungsdatenmanagement: http://www.nature.com/news/independent-labs-to-verify-high-profile-papers-1.11176