Big Data, big risks?

Science

Big Data, big risks?

«Big Data» ist in aller Munde. In Industrie und Wissenschaft preist man die Chancen der Analyse enormer Mengen von unstrukturierten Daten. Gleichzeitig sorgen sich viele Bürger um den Datenschutz. Der ETH-Informatikprofessor Donald Kossmann forscht und unterrichtet zu Big Data und ist überzeugt, dass der Nutzen die Risiken aufwiegen wird.

Interview: Samuel Schläfli

«Die Menschen werden Big Data zu ihrem Vorteil nutzen», sagt Donald Kossmann, Professor am Institut für Informationssysteme. Er hat eine Software entwickelt, die sehr grosse Datenmengen in Echtzeit auswerten kann. (Bild: Giulia Marthaler / Josef Kuster / Fotolia / ETH Zürich) (Grossbild)

Herr Kossmann, was ist Ihrer Meinung nach die bislang faszinierendste Anwendung von Big Data?
Schwierig, lassen sie mich kurz überlegen... ah ja, Google Translate. Über Jahre hinweg haben Linguisten ohne grossen Erfolg versucht, Funktionsmodelle für Sprache zu entwickeln. Heute liefert Google Übersetzungen mit besserer Qualität als all diese Modelle. Dies alleine anhand von Erfahrung, also durch den Vergleich von bestehenden Übersetzungen aus dem Internet.

Oft hat man das Gefühl, alle verstehen etwas anderes unter Big Data. Wie definieren Sie den Begriff und was ist daran neu?
Big Data ist in erster Linie die Automatisierung von Erfahrung. Die klassische Informatik automatisiert Prozesse: Man überlegt zuerst, wie etwas am besten funktionieren könnte, und dann entwickelt man ein Programm, das genau diesen Prozess automatisiert. Mit Big Data hört man an dieser Stelle nicht auf. Stattdessen passt man den Prozess aufgrund der gemachten Erfahrungen kontinuierlich an.

Welche technischen Grundlagen sind dazu notwendig?
Die Speicherung von riesigen Datenmengen wird kontinuierlich günstiger, und die Rechner werden immer leistungsfähiger. Zugleich haben Unternehmen wie Google in den 1990er-Jahren komplett neue Softwarearchitekturen entwickelt. Damit waren sie nicht mehr auf einen Grossrechner angewiesen, um grosse Datenmengen zu analysieren, sondern konnten auf hunderte oder tausende Kleinrechner zurückgreifen. Was früher in den Laboren von Google stattfand, ist in den letzten Jahren aufgrund von Open-Source-Entwicklungen für alle zugänglich geworden.

Sie halten auch Vorlesungen zu Big Data. Inwiefern hat das Thema Lehre und Forschung an der ETH verändert?
Big Data ist aus technischer Sicht keine Revolution; die grundlegenden Technologien dafür sind schon lange bekannt. Entsprechend hat sich das Lehrangebot nicht komplett verändert. Doch Bereiche wie das «Machine Learning», also die algorithmischen und mathematischen Grundlagen für Big-Data-Analysen, haben wir an der ETH stark ausgebaut. An amerikanischen Universitäten laufen derzeit erste Versuche, komplett neue Studiengänge zu «Data Science» aufzubauen. Doch wir glauben, dass eine breit gefächerte, fundierte Informatikausbildung auch im Zeitalter von Big Data noch immer sehr gefragt ist. Die anhaltend starke Nachfrage der Industrie nach unseren Abgängern gibt uns Recht.

Und was hat sich in der Forschung mit Big Data verändert?
Es gibt immer mehr Industriekooperationen in diesem Bereich. Zugleich hat das Interesse auch in anderen wissenschaftlichen Disziplinen stark zugenommen. Zum Beispiel in der Biologie, wo wir die Systembiologie-Initiative «SystemsX.ch» unterstützen oder in der Soziologie, wo wir am Projekt «FuturICT» beteiligt sind.

Sie haben 2010 gemeinsam mit einem ETH-Studienabgänger den Big-Data-Spin-off «Teralytics» gegründet. Was bieten Sie Ihren Kunden?
Eine Plattform für Big-Data-Analysen, also eine Software, die sehr grosse Datenmengen in Echtzeit verarbeiten und auswerten kann. Häufig laufen solche Analysen dann auf Hunderten von Rechnern parallel.

Und wer sind Ihre Kunden?
Die möchten lieber nicht genannt werden, weil Big Data in der öffentlichen Wahrnehmung immer noch eher negativ konnotiert ist – wozu natürlich auch die aktuelle Debatte um die Datenauswertung der NSA in den USA beiträgt. Doch Big Data hat zu Unrecht ein schlechtes Image, denn es gibt viele nützliche Anwendungen dafür.

Die wären?
Wenn es gelingt, durch die Analyse von anonymisierten Gesundheitsdaten neue, wirkungsvolle Therapien zu entwickeln, zum Beispiel zur Bekämpfung von bisher nicht behandelbaren Krebsarten, dann wird die Zustimmung in der Öffentlichkeit schnell wachsen. Natürlich bestehen Risiken, aber manchmal ist der Nutzen neuer Technologien so hoch, dass die Gesellschaft diese eingehen sollte.

Wo liegen die grössten technischen Herausforderungen?
Effizienz ist ein grosses Thema: Die Datenmengen wachsen viel schneller als unsere Rechen- und Speicherkapazitäten. Heute ist es nicht immer ökonomisch und energetisch sinnvoll, alle vorhandenen Daten zu analysieren. Die Frage ist deshalb, wie viel Daten wir für aussagekräftige Ergebnisse verwerten müssen. Weiter forschen wir an einer verbesserten Echtzeit-Datenauswertung. Ziel ist es, schneller zu Entscheidungsgrundlagen zu gelangen, was in Krisensituationen, wie zum Beispiel bei Naturkatastrophen, entscheidend ist. Und natürlich ist der Datenschutz auch für uns immer wieder ein Thema. Wir entwickeln neue Hardware-Architekturen zum Verschlüsseln und zum Aggregieren von Daten, sodass wir garantieren können, dass auch Insider keine Rückschlüsse auf einzelne Personen ziehen können.

Viele Big-Data-Anwendungen greifen heute auf frei im Internet zugängliche Daten zu. Kommen dabei Technologien zum Einsatz, die persönliche Daten anonymisieren und verschlüsseln?
Nein, die Verantwortung liegt alleine beim Nutzer. Bei Diensten wie Facebook oder Twitter willigen Sie ein, dass Ihre Daten von den Unternehmen kontrolliert werden. Diese können damit anfangen was sie wollen. Aber es liegt natürlich in Ihrer Hand, was Sie ins Internet stellen.

Sind wir also auf dem Weg in eine Gesellschaft der «Post-Privacy» und der allumfassenden Öffentlichkeit, wie dies einige Autoren prognostizieren?
Nein, Privatsphäre ist ein menschliches Grundbedürfnis. Die Jungen legen vielleicht nicht mehr so viel Wert auf den Datenschutz, aber diese Generation wird auch lernen, ihre Privatsphäre mit technischen Möglichkeiten besser zu schützen. Zusätzlich wird es neue, differenzierte Angebote im Internet geben, die den Nutzern mehr Privatsphäre zusichern als aktuelle Angebote wie Facebook. Insgesamt bin ich optimistisch, dass die Menschen Big Data letztlich zu ihrem Vorteil nutzen werden.

Donald Kossmann ist seit August 2004 ordentlicher Professor für Informatik am Institut für Informationssysteme der ETH Zürich.

Leserkommentare:

Dossiers

LESERKOMMENTARE

Big Data, big risks?

Science

Campus

Kolumnen

ETH-intern