Big Data, big risks?
«Big Data» ist in aller Munde. In Industrie und Wissenschaft preist man die Chancen der Analyse enormer Mengen von unstrukturierten Daten. Gleichzeitig sorgen sich viele Bürger um den Datenschutz. Der ETH-Informatikprofessor Donald Kossmann forscht und unterrichtet zu Big Data und ist überzeugt, dass der Nutzen die Risiken aufwiegen wird.
Herr Kossmann, was ist Ihrer Meinung nach die
bislang faszinierendste Anwendung von Big Data?
Schwierig,
lassen sie mich kurz überlegen... ah ja, Google Translate. Über Jahre hinweg
haben Linguisten ohne grossen Erfolg versucht, Funktionsmodelle für Sprache zu
entwickeln. Heute liefert Google Übersetzungen mit besserer Qualität als all
diese Modelle. Dies alleine anhand von Erfahrung, also durch den Vergleich von
bestehenden Übersetzungen aus dem Internet.
Oft hat man das Gefühl, alle verstehen etwas
anderes unter Big Data. Wie definieren Sie den Begriff und was ist daran neu?
Big Data
ist in erster Linie die Automatisierung von Erfahrung. Die klassische
Informatik automatisiert Prozesse: Man
überlegt zuerst, wie etwas am besten funktionieren könnte, und dann entwickelt
man ein Programm, das genau diesen Prozess automatisiert. Mit Big Data hört man
an dieser Stelle nicht auf. Stattdessen passt man den Prozess aufgrund der
gemachten Erfahrungen kontinuierlich an.
Welche technischen Grundlagen sind dazu
notwendig?
Die
Speicherung von riesigen Datenmengen wird kontinuierlich günstiger, und die
Rechner werden immer leistungsfähiger. Zugleich haben Unternehmen wie Google in
den 1990er-Jahren komplett neue Softwarearchitekturen entwickelt. Damit waren
sie nicht mehr auf einen Grossrechner angewiesen, um grosse Datenmengen zu
analysieren, sondern konnten auf hunderte oder tausende Kleinrechner zurückgreifen.
Was früher in den Laboren von Google stattfand, ist in den letzten Jahren aufgrund
von Open-Source-Entwicklungen für alle zugänglich geworden.
Sie halten auch Vorlesungen zu Big Data.
Inwiefern hat das Thema Lehre und Forschung an der ETH verändert?
Big Data
ist aus technischer Sicht keine Revolution; die grundlegenden Technologien
dafür sind schon lange bekannt. Entsprechend hat sich das Lehrangebot nicht
komplett verändert. Doch Bereiche wie das «Machine Learning», also die algorithmischen
und mathematischen Grundlagen für Big-Data-Analysen, haben wir an der ETH stark
ausgebaut. An amerikanischen Universitäten laufen derzeit erste Versuche,
komplett neue Studiengänge zu «Data Science» aufzubauen. Doch wir glauben, dass
eine breit gefächerte, fundierte Informatikausbildung auch im Zeitalter von Big
Data noch immer sehr gefragt ist. Die anhaltend starke Nachfrage der Industrie nach unseren Abgängern gibt uns Recht.
Und was hat sich in der Forschung mit Big Data
verändert?
Es gibt
immer mehr Industriekooperationen in diesem Bereich. Zugleich hat das Interesse
auch in anderen wissenschaftlichen Disziplinen stark zugenommen. Zum Beispiel
in der Biologie, wo wir die Systembiologie-Initiative «SystemsX.ch» unterstützen
oder in der Soziologie, wo wir am Projekt «FuturICT» beteiligt sind.
Sie haben 2010 gemeinsam mit einem ETH-Studienabgänger
den Big-Data-Spin-off «Teralytics» gegründet. Was bieten Sie Ihren Kunden?
Eine
Plattform für Big-Data-Analysen, also eine Software, die sehr grosse
Datenmengen in Echtzeit verarbeiten und auswerten kann. Häufig laufen solche
Analysen dann auf Hunderten von Rechnern
parallel.
Und wer sind Ihre Kunden?
Die
möchten lieber nicht genannt werden, weil Big Data in der öffentlichen
Wahrnehmung immer noch eher negativ konnotiert ist – wozu natürlich auch die
aktuelle Debatte um die Datenauswertung der NSA in den USA beiträgt. Doch Big
Data hat zu Unrecht ein schlechtes Image, denn es gibt viele nützliche
Anwendungen dafür.
Die wären?
Wenn es
gelingt, durch die Analyse von anonymisierten Gesundheitsdaten neue,
wirkungsvolle Therapien zu entwickeln, zum Beispiel zur Bekämpfung von bisher
nicht behandelbaren Krebsarten, dann wird die Zustimmung in der Öffentlichkeit schnell
wachsen. Natürlich bestehen Risiken, aber manchmal ist der Nutzen neuer
Technologien so hoch, dass die Gesellschaft diese eingehen sollte.
Wo liegen die grössten technischen
Herausforderungen?
Effizienz
ist ein grosses Thema: Die Datenmengen wachsen viel schneller als unsere
Rechen- und Speicherkapazitäten. Heute ist es nicht immer ökonomisch und
energetisch sinnvoll, alle vorhandenen Daten zu analysieren. Die Frage ist
deshalb, wie viel Daten wir für aussagekräftige Ergebnisse verwerten müssen. Weiter
forschen wir an einer verbesserten Echtzeit-Datenauswertung. Ziel ist es, schneller
zu Entscheidungsgrundlagen zu gelangen, was in Krisensituationen, wie zum
Beispiel bei Naturkatastrophen, entscheidend ist. Und natürlich ist der
Datenschutz auch für uns immer wieder ein Thema. Wir entwickeln neue
Hardware-Architekturen zum Verschlüsseln und zum Aggregieren von Daten, sodass wir
garantieren können, dass auch Insider keine Rückschlüsse auf einzelne Personen ziehen können.
Viele Big-Data-Anwendungen greifen heute auf
frei im Internet zugängliche Daten zu. Kommen dabei Technologien zum Einsatz, die
persönliche Daten anonymisieren und verschlüsseln?
Nein, die
Verantwortung liegt alleine beim Nutzer. Bei Diensten wie Facebook oder Twitter
willigen Sie ein, dass Ihre Daten von den Unternehmen kontrolliert werden. Diese
können damit anfangen was sie wollen. Aber es liegt natürlich in Ihrer Hand, was
Sie ins Internet stellen.
Sind wir also auf dem Weg in eine Gesellschaft
der «Post-Privacy» und der allumfassenden Öffentlichkeit, wie dies einige
Autoren prognostizieren?
Nein,
Privatsphäre ist ein menschliches Grundbedürfnis. Die Jungen legen vielleicht
nicht mehr so viel Wert auf den Datenschutz, aber diese Generation wird auch
lernen, ihre Privatsphäre mit technischen Möglichkeiten besser zu schützen. Zusätzlich
wird es neue, differenzierte Angebote im Internet geben, die den Nutzern mehr
Privatsphäre zusichern als aktuelle Angebote wie Facebook. Insgesamt bin ich
optimistisch, dass die Menschen Big Data letztlich zu ihrem Vorteil nutzen
werden.
Donald Kossmann ist seit August 2004 ordentlicher Professor für Informatik am Institut für Informationssysteme der ETH Zürich.
LESERKOMMENTARE