Im Zeitalter der Datenflut

Campus

Im Zeitalter der Datenflut

Viele Wissenschaftler nutzen Supercomputer zur Simulation und Darstellung von «unsichtbaren» Prozessen. Die dadurch generierte Datenflut und die von modernen wissenschaftlichen Instrumenten erzeugten Messdaten werden für die Forscher wie auch für die Rechenzentren zunehmend zur Herausforderung. Das zeigen jüngste Publikationen und ein aktueller Workshop.

Simone Ulmer

Isabelle Bey, Direktorin des Kompetenzzentrum «Center for Climate Systems Modeling» (C2SM). (Bild: Michele de Lorenzi/ETH Zürich) (Grossbild)

Mitte der 1960er Jahre beruhten erste Klimamodelle noch auf zwei Komponenten: Auf der Atmosphäre zusammen mit der Landoberfläche und dem Ozean. Heute wird mit zehn Komponenten gearbeitet – die Modelle wurden mit steigendem Wissen komplexer und detaillierter. Sie erreichten eine immer höhere Auflösung, parallel dazu stieg die Anzahl der erzeugten Daten. Dem Bericht des Weltklimarats, des IPCC (Intergovernmental Panel on Climate Change) aus dem Jahr 2007 lagen 40 Terabyte Daten von Klimamodellen zu Grunde. Bis zum nächsten Bericht sollen die verwendeten Daten einen Speicherplatz von zwei Petabyte füllen, sagt die ETH-Klimawissenschaftlerin Isabelle Bey, Direktorin des Kompetenzzentrums «Center for Climate Systems Modeling» (C2SM). Bey und weitere Wissenschaftler unterschiedlicher Disziplinen haben sich am Freitag auf Einladung des Nationalen Rechenzentrums der Schweiz, dem CSCS in Manno zu einem Workshop in Luzern getroffen. Nicht zuletzt, weil die ETH-Klimawissenschaftler dringend Speicherplatz für ihre über 700 Terabyte Klimadaten brauchen.

Teure Daten

Zufall ist zwar, dass das Wissenschaftsmagazin «Science» am 11. Februar zum Problem der Datenflut in der „Wissenschaft-online“ eine Sonderausgabe mit Beiträgen verschiedener wissenschaftlicher Disziplinen publizierte. Es zeigt aber, wie dringlich das Problem für die Forscher ist. Am CSCS ist man sich dessen bewusst und seit Dezember im Rahmen des Projekts «Eureka» konkret auf der Suche nach Lösungen, denn Datenspeicherung ist teuer: Ein Terabyte Daten zu speichern kostet das CSCS über tausend Franken.

Auf dem Workshop betont das CSCS einmal mehr, dass man sich in erster Linie als Serviceeinheit sieht, welche die Wissenschaftler darin unterstützt, komplexe Probleme mit Hilfe der vom CSCS zur Verfügung gestellten Rechner zu simulieren und darzustellen. Seinen Grundauftrag sieht das CSCS dort, wo Fragestellungen zu klären sind, die über simples wissenschaftliches Rechnen hinausgehen. Komplexe Prozesse, etwa in der Physik, Biologie oder den Materialwissenschaften, die nur mit Hilfe von «High Performance Computing» und «Supercomputing» simuliert und berechnet werden können. Prozesse, für die es hochleistungsfähige Rechner braucht, die massiv parallel arbeiten, das heisst, eine hohe Anzahl von Rechenoperationen gleichzeitig durchführen können – wie etwa der «Monte Rosa»-Rechner am CSCS, der zweihundert Milliarden Rechenoperationen pro Sekunde schafft. ETH-Professor Thomas Schulthess, Direktor des CSCS, sagt: «Aus einer Datenflut die wesentlichen Informationen herauszunehmen, um nachvollziehbare Erkenntnisse abzuleiten, ist ein wichtiger Bestandteil der Naturwissenschaften. Leider verleitet die moderne Informationstechnologie, mit den exponentiell wachsenden Datenmengen, die sie erzeugen kann, oft zum Gegenteil.» Damit diese Datenflut nicht ausser Kontrolle gerät und nutzlos wuchert, braucht es laut Schulthess vor allem zwei Dinge: Wissenschaftlerinnen und Wissenschaftler, die bemüht sind, die Analyse der Daten zu planen, bevor sie in grossangelegten Experimenten oder Simulationen erzeugt werden, sowie geeignete Rechnerarchitekturen, mit denen die erzeugten Daten effizient verarbeiten werden können.

Das CSCS sucht nun vor dem Hintergrund der problematischen Datenflut seinen Nutzern einen goldenen Mittelweg zu bieten, der letztlich auch auf eine Art Datenkomprimierung hinausläuft. Einerseits werden neue Speichersysteme von der Firma IBM gekauft. Der Weg soll aber auch über eine effiziente Datenanalyse führen, indem die Daten bereits während laufender Simulationen quasi gefiltert werden und unwichtige von wichtigen getrennt. Diese Nadeln im Heuhaufen zu finden, soll eine völlig neue Rechnergeneration der Firma Cray sowie ein weiterer Rechner der Firma SGI ermöglichen. Der Computer von Cray ist weltweit der erste seiner Art und soll spätestens bis Mai im Manno installiert sein. Shoaib Mufti, Director of Knowledge Management der Custom Engineering Group bei Cray, betont, dass diese neue Rechnergeneration speziell zur tiefgreifenden Datenanalyse von grossen Datenmengen entwickelt wurde.

Neue Rechner-Generation

Im Gegensatz zu einem normalen massiv-parallelen Supercomputer, bei dem mehrere Rechnungen parallel ablaufen, kann das neue Cray-System eine sehr hohe Anzahl von simultanen Speicherzugriffen auf einen sehr grossen Hauptspeicher durchführen. Dieses sogenannte «massively multithreaded system» soll von Wissenschaftlern genutzt werden, deren Datengrundlagen zur Simulation naturgemäss unstrukturiert ist – wie etwa in der Sprach- und Verhaltensforschung oder in der Ökonomie. Der neue Rechner eignet sich vor allem für Probleme, bei denen die Forschung stark abhängig ist von Daten, die sich dynamisch verändern und komplexe Beziehungen in Zeit, Raum, Ereignissen und Gemeinschaften enthalten, und deswegen häufig die Fähigkeiten der Rechner übersteigen. Im Sommer sollen die am neuen Rechner interessierten Nutzer auf dessen Nutzung geschult und vorbereitet werden.

Leserkommentare:

Dossiers

LESERKOMMENTARE

Im Zeitalter der Datenflut

Teure Daten

Neue Rechner-Generation

Science

Campus

Kolumnen

ETH-intern