Veröffentlicht: 11.06.10
Science

Schlauer Computer lernt von Video

ETH-Forscher haben ein Computerprogramm geschrieben, das zeitliche und räumliche Muster von bewegten Objekten analysieren kann und obendrein lernfähig ist. Für die Verkehrsüberwachung wäre dies eine grosse Unterstützung.

Peter Rüegg
Der Computer erkennt die räumlichen und zeitlichen Muster von Abläufen im Strassenverkehr. (Bild: D. Küttel / ETH Zürich)
Der Computer erkennt die räumlichen und zeitlichen Muster von Abläufen im Strassenverkehr. (Bild: D. Küttel / ETH Zürich) (Grossbild)

Tram Nummer zehn kreuzt die Fahrbahn, fährt eine scharfe Rechtskurve, hält vor dem Maschinenlaboratorium. Gleichzeitig kommen Autos die Universitätsstrasse hinunter gebraust, müssen anhalten, Studenten huschen über den Zebrastreifen, das Sechser-Tram in Richtung Zoo kommt ebenfalls um die Ecke. Eine solche Szene ist im Stadtzürcher Strassenverkehr typisch. Sie wiederholt sich periodisch, räumliche und zeitliche Muster lassen sich erkennen.

Für einen Menschen wäre es nicht so schwierig, diese Zusammenhänge zu verfolgen und zu analysieren, hätte er Schreibzeug und eine Stoppuhr vor sich liegen. Für einen Computer hingegen ist es eine anspruchsvolle Aufgabe, eine solche Szenerie zu erfassen, zu analysieren und sich obendrein die Muster einzuprägen.

Schlauer Algorithmus lernt Muster

Die ETH-Forscher Daniel Küttel und Michael Breitenstein um die beiden Professoren Luc Van Gool und Vittorio Ferrari vom Institut für Bildverarbeitung haben nun aber einen Computercode - einen Algorithmus - entwickelt, der genau diese Aufgabe übernimmt. Die Software kann solche Strassenszenen ab Videobildern analysieren und erkennt die räumlichen und zeitlichen Muster, welche die Verkehrsteilnehmer kennzeichnen. Der Computer kann erkennen, wann welches Tram vorbei fährt, wie viele Autos auf ihrer «Spur» durchfahren und so weiter. Der Computer registriert auch Abweichungen von einer Normalsituation.

Die Forscher haben dazu an mehreren Verkehrsknotenpunkten der Stadt Zürich Kameras montiert und mehrstündige Videosequenzen aufgenommen, welche der Computer danach analysierte und automatisch, das heisst ohne Eingriffe des Programmierers, Regeln für den Verkehrsfluss aufstellte. Pro Stunde Video musste der Computer rund einen Tag lang rechnen. Hatte die Maschine das Standard-Muster einmal «erlernt», konnte sie die Videoaufzeichnungen jedoch in Echtzeit auswerten.

Computer erstellt Tramfahrplan

Dass ihr Programm äusserst präzise arbeitet, haben die Forscher anhand von Vergleichen mit dem Tram-Fahrplan herausgefunden. Zum Test haben sie im Internet den Fahrplan angeschaut und gleichzeitig kontrolliert, wie der Computer die Verkehrsszenen analysierte. Diese automatischen Analysen deckten sich auf die Minute genau mit dem Fahrplan, was nichts anderes heisst, als dass die Maschine die Videodaten richtig analysierte.

Theorie als grosser Brocken

Was einfach klingt, war harte Programmierarbeit. Erstautor Daniel Küttel, Doktorand von Vittorio Ferrari, brauchte neun Monate, um den Algorithmus zu programmieren. «Das härteste daran war, die Theorie dahinter aufzuarbeiten», sagt er. Den Forschern ist es in erster Linie darum gegangen, das Konzept zu prüfen. Offenbar haben sie dies so gut gemacht, dass die Fachorganisation IEEE diese Arbeit an der IEEE Conference on Computer Vision and Pattern Recognition von vergangener Woche in San Francisco zu den besten fünf Prozent von 1200 eingereichten Beiträgen zählte.

Noch fehlt es an einer Anwendung, das Projekt ist bereits abgeschlossen. Ferrari denkt aber, dass die automatische Auswertung von bewegten Kamerabildern helfen könnte, den Verkehr von einer Verkehrsleitzentrale aus zu überwachen. Der Vorteil: eine Person könnte mehrere Monitore gleichzeitig betreuen, da der Computer Abweichungen zum Normalfall sofort registrieren würde, so zum Beispiel, wenn der Verkehrsfluss ins Stocken kommt oder ein Wagen in die falsche Richtung in eine Einbahnstrasse einbiegt. Der Mensch am Monitor könnte schliesslich entscheiden, ob in die Situation eingegriffen werden muss.

Automatische Bilderkennung

In ihrem nächsten Projekt versuchen die Forscher, dem Computer visuelle Konzepte beizubringen, Internetseiten nach bestimmten Bildern zu durchforsten und automatisch das richtige Bild zu finden, auch solche, die nicht entsprechend beschriftet sind. Lehrt man den Computer, wie beispielsweise Roger Federer aussieht, so soll er automatisch mit höchstens minimalen menschlichen Eingriffen Federer-Bilder finden, auch wenn in der Bildlegende etwas ganz Anderes oder gar nichts vermerkt ist.

Literaturhinweis

Kuettel D, Breitenstein MD, Van Gool L, Ferrari V. What’s going on? Discovering Spatio-Temporal Dependencies in Dynamic Scenes. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'10), San Francisco, 2010.
http://www.vision.ee.ethz.ch/~calvin/Publications/kuettel-cvpr10.pdf

 
Leserkommentare: