Netzinhalte für die Zukunft Bewahren

Ich begebe mich mal auf einen imaginären Spaziergang durch die Dachkammer meiner Großeltern, um zu sehen welche Daten hier so aufgehoben sind.
Ein Sache fällt direkt auf, die mittlerweile antiquierten Zeitschriften mit historischer Bedeutung; so zum Beispiel der Stern-Titel von der ersten Mondlandung. Wer hätte damals in den späten '60ern geahnt, dass es sich lohnt, sowas aufzuheben? Na gut, vielleicht einige Leute. Meine Großmutter hat es mit einem schwarzen Filzer markiert: "Aufheben".

Wenn man so durch die Zeitschrift blättert sind das spannendste interessanterweise nicht die Photos und der Bericht zur Mondlandung. Ich war noch nicht auf der Welt, als Armstrong seine ersten Schritte auf dem Mond machte, habe aber doch diese Bilder Tausende Male gesehen, auch die ganzen Fernseh-Dokumentationen, und man kennt auch eigentlich die ganze Geschichte.

Nein. Was ich viel interessanter fand als diese ganzen damaligen Neuigkeiten war die Werbung. Als Linguist könnte man nun vielleicht sagen, meine Wahrnehmung wurde eher durch das interpersonelle und textuelle gereizt, als durch das experimentale. Irgendwie hat dieses nämlich mehr "Neuigkeiten"-Gehalt für mich wenn es darum geht, was die Leute damals gedacht haben, wie sie die Welt gesehen habe, in der sie sich befanden.

Heben Wir Doch Einfach Alles Auf

Es stellt sich hier eine wichtige Herausforderung: wir wissen nicht was mal interessant genug sein wird, so dass man es für zukünftige Generationen aufheben sollte. Und wir ahnen auch nocht nicht, was man allein deshalb aufheben sollte, weil kein anderer auf den Gedanken kommt, es aufzuheben.
Eine mögliche Lösung: alles aufheben, sollen sich die späteren Generationen halt durch den Informationsberg wühlen. Dies allerdings macht das Suchen und Finden dann um so entscheidender. Wir können heute alles einscannen und archivieren, um Büchereien digitaler Information aufzubauen.

Geheimnisse Elektronischer Archivierung

Ich würde nun argumentieren, dass es folgende Wege gibt, elektronische Daten zu bewahren:

Abkürzungen weglassen
Ausführlich beschreiben
Genau beschreiben
Meta-Daten ignorieren
Die jeweils einfachste Umsetzung wählen
Information von Funktionalität trennen
Inhalt und Aussehen trennen
Nur über eine Sache auf einmal reden
Daten nicht komprimieren
Niemandem vertrauen

Diese Punkte habe ich aus meiner bisherigen Programmiererfahrung gelernt, und die passen auch gut auf Netzinhalte, weil:

Abkürzungen könnten ausserhalb des jeweiligen Kontext (oder in Zukunft) ihre Bedeutung verlieren.
Wenn man nicht ausführlich schreibt, nicht genug Wordvariationen verwendet, gehen wichtige Information auf Grund des fehlenden Fundaments unter.
Wenn man nicht sehr genau ist ist, "verdirbt" der Text schneller, und jeder ist ständig gezwungen, diesen zu verändern.
Meta-Daten beschreiben bestenfalls den Momentanzustand des Inhalts. Der Genauigkeit von Meta-Daten kann man nach einiger Zeit nicht mehr trauen — und Suchmaschinen trauen ihnen schon jetzt nicht.
Je einfacher und offener das Dokumentformat, desto größer die Chance, dass es die nächsten Jahre überleben wird. Macht man es zu kompliziert, sind auch komplexere Anzeigeprogramme nötig.
Daten sollten nicht mit bestimmter Funktionalität vermischt werden, denn so verringert sich ihre Zugänglichkeit. (Man möchte nun mal zu verschiedenen Zeitpunkten auch verschiedene Verhaltensweisen von einem Dokument.)
Verlässt man sich auf ein bestimmtes Ausgabemedium, oder spezifische Ausgabe-Einstellungen, riskiert man das Überleben des produzierten Inhalts, da nun ein weiterer Faktor außerhalb des eigenen Kontrollbereichs liegt.
Man sollte nur über eine Sache zur selben Zeit reden. (Bei der Programmierung wäre dies die Refaktorisierung und Modularisierung — in der Welt der Suchmaschinenoptimierung die eindeutige Betitelung jeder Seite.) Werden Themenbereiche vermischt, so lassen sich Inhalte bei zukünftiger Suche schwerer "bergen", da sie von anderen Inhalten verdeckt werden.
Datenkomprimierung im Binärformat stellen eine weitere Schranke für zukünftigen Zugriff auf.
Je mehr man sich auf fremde Werkzeuge (oder Personen) verlässt, desto größer das Risiko, dass Inhalte verloren gehen. Dienste wie TinyURL, GeoCities.com, sogar Blogger.com könnten dem Untergang geweiht sein, oder aber komplett ihre Nutzbedingungen ändern. Man kann halt nie wissen. Man sollte nur den Werkzeugen und Diensten vertrauen, die unter eigener Kontrolle liegen. Je weniger Schichten zwischen dem Autoren und dem Leser, desto höher eine Chance auf Bewahrung des Inhalts.

Die Lingua Franca der Netzwelt

Innerhalb derzeitigen elektronischen Kommunikationsmedien halte ich das World Wide Web für das interessentaste. Und in der Sprachwelt dieses Netzes wiederum würde ich auf XHTML Strict als die wichtigste hinweisen. (XHTML ist die eXtensible Hyper-Text Markup Language — im Gegensatz zu HTML nicht auf SGML, sondern XML basierend.)
Die Ausgangsidee hierbei ist die Trennung von Inhalt und Aussehen (oder Ausgabespezifika), welche dieses Dokumentformat für verschiedenste Ausgabemedien sehr zugänglich macht; heutzutage, und zukünftig (und wer wüsste jetzt schon, mit was für Gerätschaften Leute in den nächsten Jahrzenten das Internet begehen).

Zur selben Zeit benutzen die meisten (X)HTML allerdings nicht so, wie es gedacht war — zumindest, wenn man sich die ursprünglichen Intentionen eines Tim Berners-Lee und des World Wide Web Konsortiums anschaut: HTML getrennt vom Design. So wird das Problem also auf die Browser verlagert. Die Hersteller von Browsern müssen kommerziell denken zu existieren, produzieren dadurch also sehr fehler-tolerante Programme zur Interpretation von Webseiten. Das wiederum kann HTML-Schreiber zu noch mehr Faulheit verführen.

Es zeichnet sich also eine Zukunft ab, wo HTML so verschwommen, unklar und fernab irgendeines Standards erstellt wird; man sich komplett auf bestimmte Browser und deren Implementation verlässt. Jedoch stirbt am schnellsten die Software aus, also die kompilierte, für Menschen nicht leserliche Binärversion (aber auch die großen und komplexen Open Source Bibliotheken). Als Folge könnten nun auch Webinhalte verloren gehen.

Das alles passiert recht schnell. Wenn man heutzutage Netscape 4 herunterlädt, so begibt der sich beim Erststart auf eine Netscape.com Seite, die dann nichts als Fehlermeldungen ausspuckt. Noch nicht einmal wenn man Kontrolle über sowohl die Webseite als auch den Browser hat, wurde es hier geschafft, den Inhalt zugreifbar zu machen.

Man fragt sich hier, ob elektronische Archivierung denn den traditionellen Methoden überlegen ist.
Während wir problemlos Tausend Jahre alte, in Granit gemeisselte Grabschriften lesen können, gibt es schon Probleme, will man nur die Floppy-Diskette eines 1980er C-64 BASIC Programmierbuchs in das Laufwerk schieben. (Und selbst wenn man das Quellprogramm nun aus dem Buch abtippen kann, hat man dann doch wahrscheinlich nicht den richtigen Compiler zur Hand. In diesem Fall wäre eine unspezifische Beschreibung, wie etwa beim Pseudo-Code, von Vorteil.) HTML ist als sehr einfache und unspezifische Sprache gedacht, braucht somit keine komplexen Interpretationen. Andererseits, wenn man sich anschaut wie es die meisten Menschen (und Erstellungswerkzeuge) heute schreiben -- zu einer Zeit, in der einiges an Material erkannt, kopiert, hochgeladen, indexiert, und somit konserviert werden soll -- so erinnert das ganze doch eher an jenes 1980er BASIC Programm an Stelle von Pseudo-Code (ich bitte hier die Programmier-Metaphern zu entschuldigen, HTML it schließlich keine Programmiersprache).

Ein Weg aus dem Dilemma

Es ist völlig unrealistisch zu denken, man könnte Leute zum schreiben von "sauberen" HTML umerziehen. Und die meisten Ein- und Ausgabewerkzeuge gehen ja den gleichen falschen Weg, entweder aus Zwang, oder weil deren Entwickler selbst keine Ahnung vom Netz haben. (Ich habe selbst in einigen Jahren Programmierarbeit für meine Firma ein Redaktionssystem geschrieben, und selbst wenn man nicht dem Kunden alle Vorteile der Trennung von Form und Inhalt klarmachen kann, so kann man es doch recht einfach implementieren und nutzen.)

Man stelle sich ein kommerziell erfolgreiches Werkzeug vor (etwa Microsoft FrontPage), das nun plötzlich nur noch das "strenge" (X)HTML Strict erzeugt. Und weiterhin ein beliebter Browser (wie Netscape), der nun anfängt, nur noch HTML Strict darzustellen. Auf einmal würden die Leute und Werkzeuge sich umstellen, weil sie gezwungen sind. Die Onlinejournal-erzeugenden "Blog"-Systeme, und auch alle anderen Arten von Redaktionssystemen, machen einen großen (vielleicht den größten) Teil des heutigen Netzinhaltes aus. Würden die Leute also diesen Weg beschreiten, wäre die Chance wesentlich geringer, dass zukünftige Generationen frustriert im Netz umherirren.

Zurück zum Speicher meiner Großeltern, wo ich gerade eine MAD-Ausgabe aus den '70ern abstaube (nach mittlerweile drei Jahrzenten schon fast Antiquität). Don Martin, Al Jaffee, William M. Gaines, Mort Drucker, um nur einige zu nennen. Ich bin wirklich froh, dass deren Meisterwerke nicht als Webseite veröffentlicht wurden. Ansonsten hätte ich sie vielleicht nie entdeckt.

Ein recht guter Archivierungstrick: Druck's auf Papier. Leg's in den Speicher.