Veröffentlicht: 21.01.09
Risikoforschung

Was Open Source mit Literatur verbindet

Die Häufigkeit von Wörtern in Texten, die Grösse von Firmen und die Verlinkung von Komponenten in Linux Softwaredistributionen zeigen annähernd dieselbe mathematische Verteilung: Sie folgen dem Zipfschen Gesetz. ETH-Forscher haben bei den Linux-Programmen getestet, wie es dazu kommt.

Niklaus Salzmann
Die Anzahl Pakete (y-Achse), auf die mehr als C Links verweisen (x-Achse). In der doppelt logarithmischen Skala ergeben sich für alle vier untersuchten Debian Linux-Distributionen Geraden mit einer Steigung von ungefähr -1, was dem Zipfschen Gesetz entspricht. (Grafik: zVg)
Die Anzahl Pakete (y-Achse), auf die mehr als C Links verweisen (x-Achse). In der doppelt logarithmischen Skala ergeben sich für alle vier untersuchten Debian Linux-Distributionen Geraden mit einer Steigung von ungefähr -1, was dem Zipfschen Gesetz entspricht. (Grafik: zVg) (Grossbild)

Der amerikanische Linguist George Kingsley Zipf hat in der ersten Hälfte des zwanzigsten Jahrhunderts untersucht, wie häufig welches Wort in literarischen Texten vorkommt. Einige Worte waren sehr häufig, etwa „the“ und „and“, die Mehrzahl der Wörter kam jedoch nur selten vor. Das entstehende Muster liess sich in Zahlen ausdrücken: Das häufigste Wort kam rund doppelt so häufig vor wie das zweithäufigste und dreimal so häufig wie das dritthäufigste, die Häufigkeit eines Wortes war also umgekehrt proportional zu seinem Rang. Dies ist heute als Zipfsches Gesetz bekannt.

Wissenschaftler haben festgestellt, dass diese Verteilung auf unterschiedliche Systeme annähernd zutrifft, etwa auf die Besucherzahlen von Websites, auf die Grössen von Städten und die Grössen von Firmen in zahlreichen Ländern. Forscher vermuteten, dieses immer wieder auftauchende Muster hänge mit dem Wachstumsprozess der untersuchten Systeme zusammen.

Gratis Rohmaterial dank Open Source

Nun gelang es dem Doktoranden Thomas Maillart und Didier Sornette, Professor vom Lehrstuhl für unternehmerische Risiken, sowie Sebastian Späth und Georg von Krogh, Professor vom Lehrstuhl für Strategisches Management und Innovation der ETH Zürich, empirisch zu zeigen, unter welchen Bedingungen eine Verteilung nach dem Zipfschen Gesetz entsteht. Dazu untersuchten sie die Verlinkung von Linux-Software-Paketen. Ihre Resultate wurden in der Fachzeitschrift Physical Review Letters veröffentlicht und als Forschungshighlight in Nature erwähnt.

Sornette hatte in einer früheren Publikation bereits vorgeschlagen, einen empirischen Test des Zipfschen Gesetzes durchzuführen. Sein Doktorand Thomas Maillart stiess auf der Suche nach einem Thema für seine Dissertation auf einen Artikel von Sebastian Späth und Georg von Krogh über Open-Source-Software. Maillart realisierte: Hier sind Daten vorhanden, an denen sich die Entstehung des Zipfschen Gesetzes verifizieren lassen könnte.

Linux ist ein Betriebssystem wie Microsoft Windows oder Mac OS. Es ist jedoch nicht durch Lizenzen geschützt und steht via Internet in zahlreichen Versionen zum kostenlosen herunterladen bereit. Jede Linux-Distribution besteht aus verschiedenen Software-Paketen, welche für die Wissenschaftler somit gratis Rohmaterial für ihre Forschung darstellten. Debian Linux – die Distribution, welche die ETH-Forscher untersuchten – umfasste im Jahr 1996 noch 474 Pakete, 2007 waren es bereits über 18‘000.

Die Verteilung entsteht durch das Wachstum

Die Pakete sind untereinander mit zahlreichen Links vernetzt, über die sie sich gegenseitig aufrufen. Maillart untersuchte als erstes für vier Debian-Versionen, ob die Anzahl eingehender Links der Pakete dem Zipfschen Gesetz gehorcht. Dies bestätigte sich (siehe Grafik). Sodann untersuchten die Wissenschaftler, wie sich die Anzahl Links, die auf eine Packung verweisen, mit der Zeit entwickelte. Sie gingen von einem proportionalen Wachstum aus: Je mehr Links bereits auf ein Paket verweisen, desto schneller nimmt die Anzahl Links zu.

Die Auswertung der Daten der Linux-Pakete zeigte, dass das Modell der Forscher korrekt war. In neuen Paketen wich die Anzahl Links vom Zipfschen Gesetz ab, die charakteristische Verteilung entstand erst durch das Wachstum der Linux-Distribution. Zudem bestätigte sich eine Bedingung, welche die Forscher in ihrem Modell benutzt hatten: Die Anzahl Links schwankt stärker, als sie wächst. Sie kann demnach, auch wenn sie sehr gross ist, wieder auf null fallen, was für das Linux-Paket bedeutet, dass es nicht mehr verwendet wird.

Rückschlüsse auf unternehmerische Risiken

Thomas Maillart bezeichnet sich als Risikomanager. Bereits als Student der Bauingenieurwissenschaften an der EPFL habe er Risiken berechnet; damals ging es um die Sicherheit von Bauwerken. Danach arbeitete er in einer Firma zur Versicherung von Internetrisiken. Die Arbeit über das Zipfsche Gesetz entstand nun im Rahmen seiner Dissertation über Risiken im Internet am Lehrstuhl für unternehmerische Risiken der ETH Zürich.

Aus unternehmerischer Sicht ist es spannend, das Wachstum von Linux-Paketen abschätzen zu können. Die Bedeutung des Papers geht jedoch weit über das Fachgebiet hinaus, denn die Erkenntnisse gelten für alle Systeme, die dem Zipfschen Gesetz folgen. Etwa für die Grössen von Firmen: Analog zur Anzahl Links, die auf ein Linux-Paket verweisen, bietet die Grösse einer Firma keine Sicherheit für das Überleben der Firma. Wie sich in der Finanzkrise bestätigte.

Literaturhinweis:

Maillart T, Sornette D, Spaeth S & von Krogh G. Empirical Tests of Zipf’s Law Mechanism in Open Source Linux Distribution. Phys. Rev. Lett. 2008; 101 (218701). doi:10.1103/PhysRevLett.101.218701.

 
Leserkommentare: