Am 9. Dezember 2007 begann die Wikimedia Foundation, Informationen über Zugriffe auf Seiten der Wikipedia und ihrer Schwesterprojekte zu veröffentlichen. Pro Stunde ist das eine Datei mit folgender Struktur:
de Balun 3 3
de Balut 1 1
de Balve 2 2
de Balz 1 1
de Balzac 1 1
de Balzac_und_die_kleine_chinesische_Schneiderin 1 1
de Balzan-Preis 1 1
de Balzi_Rossi 2 2
de Bam_Bam_Bigelow 1 1
de Bam_Margera 6 6
de Bamako 3 3
Die erste Spalte enthält die Sprachausgabe der Wikipedia oder des entsprechenden Projektes, die zweite Spalte den Artikel, die dritte Spalte die Anzahl der Seitenaufrufe in der jeweiligen Stunde. Die vierte Spalte ist in den ersten Monaten nur die Wiederholung der dritten Spalte, später die Anzahl der übertragenen Bytes. Die neueren Dateien sehen also mit der ausgefüllten vierten Spalte so aus:
de Balz 1 8173
de Balz_(Begriffskl%C3%A4rung) 3 49391
de Balz_Bachmann 2 45119
de Balzac 2 13460
de Balzac_(Band) 5 46765
de Balzac_und_die_kleine_chinesische_Schneiderin 1 11766
de Balzan-Preis 2 111071
de Balzer_Herrgott 2 76132
de Balzer_Jacobsen 9 181184
In den Dateien ist nicht enthalten:
- Benutzername oder IP-Adresse des Abrufes
- User-Agent der Seitenabrufe
- Minuten oder Sekundenangabe der Seitenabrufe
- Herkunft der Seitenabrufe nach Geographie
- Alles andere
Die einzige Aussage, die mit diesen Daten möglich ist, lautet vom Muster etwa so:
Am 31.12.2008 wurde von 00:00:00 und 00:59:59 Uhr UTC die URL en.wikipedia.org/wiki/Google 822 Mal aufgerufen.
Anwendungen gibt es beispielsweise bei stats.grok.se. Dort sind die Angaben auf den Tag genau addiert worden.
Die Daten selbst gibt es unter dammit.lt/wikistats. Eine Stunde = Eine Datei ist zwischen 30 und 60 MB groß (gz-komprimiert).
Wir haben also jetzt vom kompletten Jahr 2008 (mit insgesamt etwas unter 48 Stunden Downtime) eine stundenbasierte Liste aller Seitenaufrufe auf wikipedia.org, komprimiert so etwa um die 350 GByte.
Tags: Statistik, Wikipedia