Pakete aus San Francisco

18.03.2021 von Matthias Münch in Wissenschaft

Informatiker mitteldeutscher Hochschulen laden eine Kopie des World Wide Web herunter - aus der weltweit größten öffentlichen Bibliothek historischer Webseiten, dem Internet Archive. Neben der Informatik selbst sollen damit insbesondere die Sozial- und Geisteswissenschaften neue Forschungsgebiete erschließen können.

Doktorand Maik Fröbe im IT-Servicezentrum (Foto: Michael Deutsch)

Wenn Maik Fröbe ein Paket in Kalifornien bestellt, dann erwartet er kein Smartphone, Laptop oder Tablet. Auch keinen Shiraz oder Zinfandel. Nein, dem Informatiker geht es nicht um Geräte und Genüsse, sondern um Daten. 300 Terabyte umfasste die jüngste Lieferung aus San Francisco, über einen Monat dauerte die Übertragung, trotz einer Downloadrate von bis zu einem Gigabit pro Sekunde. „Mehr geht nicht“, sagt er, „wir wollen ja die Leitungen nicht überlasten.“

Fröbe ist wissenschaftlicher Mitarbeiter am Institut für Informatik der MLU und beteiligt am „Immersive Web Observatory“ (IWO). Sein Chef, Prof. Dr. Matthias Hagen von der Arbeitsgruppe Big Data Analytics, hat dieses innovative Projekt vor vier Jahren gemeinsam mit Prof. Dr. Martin Potthast von der Universität Leipzig sowie Prof. Dr. Benno Stein und Prof. Dr. Bernd Fröhlich von der Bauhaus-Universität Weimar initiiert. Gefördert wird das IWO vom Bundesministerium für Bildung und Forschung.

Wissensspeicher mit Zugangsbarrieren

Matthias Hagen ist seit 2018 Professor für „Big Data Analytics“ in Halle. (Foto: Maike Glöckner)

„Das Web ist der größte Daten- und Informationsspeicher überhaupt“, sagt Matthias Hagen. „Das macht es nicht nur für die private und kommerzielle Nutzung, sondern auch für die Forschung interessant.“ Viele Bereiche der Informatik etwa befassen sich mit Algorithmen zur Speicherung und Abfrage von Daten – beispielsweise um zu untersuchen, wie man Wissensmanagement mit Künstlicher Intelligenz verknüpfen kann. Auch für die Digital Humanities, ein schnell wachsendes Feld der Geistes- und Sozialwissenschaften, ist das Web von unschätzbarem Wert: Als eigenständiges Medium liefert es ein Abbild eines Teils der Gesellschaft, es zeigt, wie wir miteinander kommunizieren, welche Themen den Diskurs bestimmen und welche Akteure zu Wort kommen.

Bei solchen Analysen stoßen Forschende der Informatik, Soziologie oder Geschichte jedoch auf zwei grundlegende Hürden: Erstens ist die Struktur des Webs sehr heterogen – selbst mit den besten Suchmaschinen lässt es sich nicht wie ein einzelner Datensatz durchforsten. Und zweitens benötigt die Forschung auch historische Daten, die die Entwicklung des Webs selbst abbilden. Das jedoch ist besonders schwierig, weil Webseiten Schätzungen zufolge im Durchschnitt höchstens 60 bis 90 Tage online sind, bevor sie aktualisiert oder gar gelöscht werden. Hagen: „Wer nicht in den Entwicklungsabteilungen von Google oder anderen Internetkonzernen arbeitet und über eine gebrauchsfertige Kopie des Webs verfügt, hat kaum eine Chance, gerade an diese historischen Daten zu gelangen.“

Transfer von acht Billiarden Bytes

Doch es gibt eine Möglichkeit, diese Barriere zu überwinden. Dafür zapfen die Informatiker eine Quelle von unschätzbarem Wert an: das Web-Archiv des Internet Archive. 1996, zwei Jahre vor der Gründung von Google, begann der amerikanische Informatiker Brewster Kahle, sämtliche im Web zugänglichen Inhalte regelmäßig zu archivieren. Prominente Angebote wie Nachrichtenseiten, die sich permanent ändern und auf die Millionen Menschen zugreifen, werden mehrmals täglich kopiert, weniger bedeutende Seiten entsprechend seltener. Die Bibliothek wird in vier Rechenzentren in San Francisco auf 20.000 Festplatten gespeichert und umfasst inzwischen rund 500 Milliarden Webseiten – außerdem über 29 Millionen Bücher und Texte, fast sieben Millionen Videos und Filme, 14 Millionen Audio- und fast vier Millionen Bilddateien.

Einen repräsentativen Querschnitt des Web-Archivs holt die Forschergruppe nun nach Deutschland. Acht Petabyte, das sind acht Billiarden Bytes, sollen von den kalifornischen Rechenzentren auf die 78 Server des IWO an der Bauhaus-Universität transferiert werden. „2019 haben wir mit dem Download begonnen und bis Ende Januar 2021 ein Petabyte heruntergeladen“, sagt Maik Fröbe. Die Übertragung erfolgt nicht kontinuierlich – auf Anforderung stellen die Mitarbeiter des Internet Archives einzelne Datenpakete zusammen, die dann von Deutschland aus abgerufen werden. Ende 2022 soll der Transfer abgeschlossen sein. Dann werden auf den Weimarer Servern sogar zwölf Petabyte liegen, weil manche Daten aus Sicherheitsgründen redundant vorgehalten werden. Zur Veranschaulichung: 12.000 handelsübliche PCs mit Ein-Terabyte-Festplatten wären nötig, um diese Datenmenge speichern zu können.

Indexierung und Big-Data-Analyse in Halle

Wenn der transatlantische Datentransfer abgeschlossen ist, ist die Arbeit der halleschen Informatiker längst nicht beendet, im Gegenteil: „Die Kopie des Webs ist zunächst nicht mehr als eine unstrukturierte Sammlung von Informationen“, sagt Matthias Hagen. „Wir werden effektive Analysewerkzeuge einsetzen, um die Inhalte zu erschließen.“ An der MLU soll ein Indexierungscluster entstehen, eine Verschlagwortung, die eine strukturierte, von wissenschaftlichen Fragestellungen geleitete Suche ermöglicht. Mithilfe der Big-Data-Analyse wird es möglich sein, große Datenmengen aus unterschiedlichen Quellen nach Suchmustern zu durchforsten – etwa um Texte, Audio- oder Bilddateien zu bestimmten Ereignissen oder von bestimmten Autoren zu finden.

Vor allem die Digital Humanities werden von der Arbeit der mitteldeutschen Informatiker profitieren. Die Forschungsfragen sind so vielfältig wie die Gesellschaft selbst: Wer schreibt im Web? Hat sich die Diskussionskultur verändert? Kann das Web als Datenquelle für Historiker dienen? Ist der monetäre Wert von Plattformen wie Wikipedia messbar? Wie hat sich die Selbstdarstellung von öffentlichen Institutionen, Firmen und Individuen im Web entwickelt? Matthias Hagen erwartet eine starke Beteiligung der Forschungsgemeinde: „Wir geben den Impuls, schaffen den Zugang und sorgen für eine gute Durchsuchbarkeit. Welche Rohdaten jedoch relevant sind, das wissen die Vertreter der jeweiligen Fach-Communities am besten. Deshalb rufen wir alle Interessierten explizit dazu auf, mit uns in einen konstruktiven Austausch zu treten.“

Prof. Dr. Matthias Hagen
Institut für Informatik
Tel.: +49 345 55-24708
E-Mail: matthias.hagen@informatik.uni-halle.de

Pakete aus San Francisco

Wissensspeicher mit Zugangsbarrieren

Transfer von acht Billiarden Bytes

Indexierung und Big-Data-Analyse in Halle

Kategorien

Schlagwörter

Kommentar schreiben