Posts Tagged ‘Wikipedia’

Schöner lesen mit XML-Prinzen

Sunday, January 11th, 2009

2004 stellte Thomas Karcher in Wikipedia das Projekt “WikiReader” vor: Einzelne Wikipedia-Inhalte beispielsweise zum Thema Schweden werden zusammenkopiert, hübsch gemacht, ggf. korrekturgelesen und dann als PDF oder gedruckte Ausgabe verteilt.

Seitdem gab es diverse Ansätze und technische Konzepte (wiki2pdf, wiki2xml, pediapress (code), pdfwwe), um (Media)Wiki-Text nach PDF und hübsch zu exportieren. Gestern habe ich durch Zufall einen neuen Ansatz entdeckt, den Kenner vielleicht schon aus anderen Zusammenhängen längst kennen: PrinceXML.

Prince liefert ein paar Beispiele, die ich persönlich für die beste mir bekannte Umsetzung von HTML/XHTML/XML nach PDF halte. Darunter sind auch drei Wikipedia-Artikel (United States, Norway und Soviet Union) aus der englischsprachigen Ausgabe.

Prince wird für private Zwecke kostenfrei zum Download für diverse Plattformen angeboten, kommerzielle Nutzung hingegen wird etwas teurer.

Der größte deutschsprachige Wikipedia-Artikel (Geschichte Polens) rendert auf meinem Notebook in 26 Sekunden durch, heraus kommt ein 65 Seiten starkes PDF, das natürlich noch kleinere Macken in der Umsetzung hat. Ein professioneller Layouter wird hier unendlich schönere Ergebnisse liefern. Vermutlich wäre auch noch einiges auf Seiten von Wikipedia verbesserungsfähig, um das Ergebnis noch weiter zu verschönern.

Ich empfehle Prince zum uneingeschränkten Herumspielen.

Screenshot von Prince: Geschichte Polens

Screenshot von Prince: Geschichte Polens

Kurztest: Literaturverlinkung in Wikipedia

Thursday, January 8th, 2009

Eine winzige Bestandsaufnahme: 20 zufällig ausgewählte Artikel angeschaut und nach Literaturhinweisen gezählt.

  1. Mariengymnasium Jever: Keine Literaturangaben, ein Weblink, ein Geokoordinatenlink
  2. Charles David Walker: Keine Literaturangaben, zwei Weblinks
  3. Meißner Schuhfabrik: Keine Literaturangaben, zwei Weblinks
  4. Ismael Kirui: Keine Literaturangaben, zwei Weblinks
  5. Flugplatz Abaiang: Keine Literaturangaben, ein Geokoordinatenlink
  6. Schlossbibliothek Dyck: Eine Literaturangabe, drei Weblinks
  7. Benguela (Provinz): Keine Literaturangaben, zwei Weblinks
  8. Charakterstück (Musik): diverse Literaturangaben im Text
  9. Terceira: Begriffsklärungsliste
  10. U-Bahn Nagoya: Keine Literaturangaben, vier Weblinks, ein Commons-Link
  11. Der Spiegel: Zwölf Literaturangaben, 36 Einzelnachweise, neun Weblinks
  12. Ferdinand Graf: Keine Literaturangaben, ein Weblink
  13. Großer Klappertopf: Drei Literaturangaben, ein Weblink, ein Commons-Link
  14. Rabindranath Thakur:  30 Literaturangaben, 18 Weblinks, zehn Einzelnachweise
  15. Geschichte der Juden in Norwegen:  Eine Literaturangabe, sechs Weblinks
  16. Raphael Lemkin: Vier Literaturangaben, sieben Weblinks
  17. Maass: Begriffsklärungsliste
  18. Kilomètre zéro:  Keine Literaturangaben, Zwei Weblinks
  19. Julia Malik: Eine Quellenangabe, ein Weblink
  20. Paul Scherrer: Eine Literaturangabe, zwei Weblinks

Erfreulich: Die Vorlage für die PND, die Personennamendatei wird in den biographischen Einträgen genutzt. Richtig schön umgesetzt wurden die Literaturangaben beispielsweise im Spiegel-Artikel oder beim Klappertopf. Bei Thakur wäre deutlich mehr möglich gewesen.

Schade, dass es keine frei verfügbare Datenbank deutschsprachige Literatur mit hinreichend vielen Metadaten gibt.

Wo ist das Mehrheits-Skin?

Sunday, January 4th, 2009

Wer auf eine beliebige Wikipedia-Seite geht, wird neben einer Bleiwüste (not a bug, its an encyclopedia) auch von einer Unmenge an Funktionen erschlagen:

  1. Anmeldebutton
  2. “Seite bearbeiten”
  3. Suchfunktion
  4. “Diskussion”
  5. Versionsgeschichte
  6. Navigationsleisten (5 Links)
  7. Mitmachlinks (5 Links)
  8. Werkzeuge (6 Links)
  9. Interwikilinks

Diese Funktionen sind ja alle ganz lieb gemeint und werden ja auch in der Tat genutzt. Irgendjemand auf dem Planeten hat sicherlich sich schonmal gefreut, dass es einen ganz einfach erreichbaren Permalink gibt, dessen Funktion dann in “Seite zitieren” noch einmal nachgebildet wird und zudem auch via Versionsgeschichte enthalten ist. 

Divese Wikipedianer gehen einen Schritt weiter und gestalten sich ihre Skin auf genau ihre persönlichen Bedürfnisse zurecht, meist mit noch mehr (Admin-)Funktionen.

Mir fehlt derzeit genau der umgekehrte Weg: Eine Skin, die einfach nur geeignet ist für jemanden, der eine Enzyklopädie lesen will. Ohne Partizipation, ohne Medienkompetenz und stundenlanges Difflink-Vergleichen, ohne Ratschläge zum Mitmachen und Autorenportale. Einfach nur lesen, also das, was derzeit eh geschätze 95% und gefühlte 98% der Nutzer machen. Optisch schön, bequem erreichbar und schlicht, mit dem Fokus auf den Inhalt.

Einen Namen gibt es auch schon: “Passive”. 

Mit einem kleinen leuchtenden Stern in der oberen Ecke, der dann wieder den ganzen restlichen Schmonzes aktiviert – für die 2%, die wirklich darauf stehen.

Was tut man mit 1 Terabyte Nutzungsdaten?

Friday, January 2nd, 2009

Am 9. Dezember 2007 begann die Wikimedia Foundation, Informationen über Zugriffe auf Seiten der Wikipedia und ihrer Schwesterprojekte zu veröffentlichen. Pro Stunde ist das eine Datei mit folgender Struktur:

de Balun 3 3
de Balut 1 1
de Balve 2 2
de Balz 1 1
de Balzac 1 1
de Balzac_und_die_kleine_chinesische_Schneiderin 1 1
de Balzan-Preis 1 1
de Balzi_Rossi 2 2
de Bam_Bam_Bigelow 1 1
de Bam_Margera 6 6
de Bamako 3 3

Die erste Spalte enthält die Sprachausgabe der Wikipedia oder des entsprechenden Projektes, die zweite Spalte den Artikel, die dritte Spalte die Anzahl der Seitenaufrufe in der jeweiligen Stunde. Die vierte Spalte ist in den ersten Monaten nur die Wiederholung der dritten Spalte, später die Anzahl der übertragenen Bytes. Die neueren Dateien sehen also mit der ausgefüllten vierten Spalte so aus:

de Balz 1 8173
de Balz_(Begriffskl%C3%A4rung) 3 49391
de Balz_Bachmann 2 45119
de Balzac 2 13460
de Balzac_(Band) 5 46765
de Balzac_und_die_kleine_chinesische_Schneiderin 1 11766
de Balzan-Preis 2 111071
de Balzer_Herrgott 2 76132
de Balzer_Jacobsen 9 181184

In den Dateien ist nicht enthalten:

  • Benutzername oder IP-Adresse des Abrufes
  • User-Agent der Seitenabrufe
  • Minuten oder Sekundenangabe der Seitenabrufe
  • Herkunft der Seitenabrufe nach Geographie
  • Alles andere

Die einzige Aussage, die mit diesen Daten möglich ist, lautet vom Muster etwa so:

Am 31.12.2008 wurde von 00:00:00 und 00:59:59 Uhr UTC die URL en.wikipedia.org/wiki/Google 822 Mal aufgerufen.

Anwendungen gibt es beispielsweise bei stats.grok.se. Dort sind die Angaben auf den Tag genau addiert worden.

Die Daten selbst gibt es unter dammit.lt/wikistats. Eine Stunde = Eine Datei ist zwischen 30 und 60 MB groß (gz-komprimiert).

Wir haben also jetzt vom kompletten Jahr 2008 (mit insgesamt etwas unter 48 Stunden Downtime) eine stundenbasierte Liste aller Seitenaufrufe auf wikipedia.org, komprimiert so etwa um die 350 GByte.

Wikipedia-Wünsche für 2009 (unsortiert)

Wednesday, December 31st, 2008
  1. Mehr Semantic MediaWiki bei Wikimedia-Projekten. Gerne auch mal eine deutschsprachige Wikipedia mit aktivierter Semantic MediaWiki-Erweiterung (optional ein- oder ausschaltbar).
  2. Mehr Datenspenden: So viele Bildarchive hätten noch auf Wikimedia Commons Platz. Gerne auch in höherer Auflösung.
  3. Videospenden für Wikimedia Commons. Es gibt 16 Landesparlamente und einen Bundestag, da müsste doch grundsätzlich frei lizenzierbares Videomaterial abfallen.
  4. Mehr Kooperationen mit strukturierten Textquellen. Beispielsweise eine dynamische Verlinkung auf deutschsprachige Nachrichtenseiten via Templates und  Kategorisierungssystem (PND, SWD, DDC, etc.)
  5. Größerer Einsatz der [[Vorlage:ISBN]] in der deutschsprachigen Wikipedia, gerne auch ein Aufbau einer frei lizenzierten Literaturdatenbank neben der Wikipedia.
  6. Intelligente Nutzung der Nutzungsstatistiken, um beispielsweise Lesern relevante aktuelle Artikelhinweise zu geben.
  7. Eine schöne Wikimania in Buenos Aires.
  8. Eine open source NLQ-Engine im Einsatz bei wikipedia.org
  9. Einen Markeninhaber von “Brockhaus”, mit dem man schöne Dinge gemeinsam anstellen kann

Chrome, not Content

Sunday, December 28th, 2008

In der taz findet sich ein Plädoyer von Rudolf Walther, auf keinen Fall die Inhalte der Brockhaus Enzyklopädie kostenlos ins Internet zu stellen. Warum er das gerade jetzt fordert, kommt nicht durch. Genausowenig wie die Information, dass seit geraumer Zeit Brockhaus-Inhalte mehr oder weniger in Form des “Meyers Lexikon Online” kostenlos und werbefinanziert im Netz stehen.

Rudolf schreibt:

Aber anstrebenswert ist nicht eine Angleichung von Brockhaus und Wikipedia, sondern zwei Medien: eines auf dem Niveau von Wikipedia und eine Online-Enzyklopädie von Brockhaus-würdigem Format.

Die Schwurbelei am Ende spricht Bände, zumindest kann man erstmal unterstellen, dass es ihm nicht um Inhalt, sondern um Form geht. Wenn wir (Teile der) Wikipedia-Inhalte als “Brockhaus Online”, mit digitalem Goldschnitt und einer grotesken Preisvorstellung online bringen würden, wäre das doch dann in seinem Interesse, ja?

Ebenfalls nicht uninteressant ist der Artikel im Börsenblatt 52/2008 ab Seite 23. Dort geht es um die Brockhaus-Übernahme und um den Verkauf der Leipziger Kommissions- und Großhandelsbuchgesellschaft (LKG) an KNO VA. Gemeinsame Klammer ist der gefühlte Untergang der Buchstadt Leipzig. Michael Roesler-Graichen (mein Lieblingsangestellter beim BöBla)  hat für den Artikel den Wissenmedia-GF Christoph Hünermann befragt. Perle der Interviewkunst gefällig?

Können Sie damit endlich den Nutzerstrom von Wikipedia zurückleiten?

Da wäre ich vorsichtig. Nach zehn Jahren Online-Vermarktung mit Wissen.de und Spiegel Wissen kann ich nur sagen: Das ist ein sensibles, schwieriges Geschäft. Ich kann mir definitiv nicht vorstellen, dass wir ein kostenfreies Brockhaus-Portal aufmachen, in dem der komplette Content enthalten ist. Die Encyclopedia Britannica, die wieder zur Printproduktion zurückgekehrt ist, ist ein Lehrstück.

Britannica ist witzigerweise ein Verein, der seit einigen Monaten faktisch (mal wieder) alle Inhalte der Encyclopaedia Britannica kostenlos und online verfügbar macht, zusammengemischt mit Bildern von Wikimedia Commons. Wenn schon Lehrstück, dann für ein nagware-Modell. Solange, bis sie Lehrstück für was ganz anderes werden.

Der Tod der DVD-Enzyklopädien

Friday, December 26th, 2008

Faszinierend ist, wie wenig Aufmerksamkeit der Niedergang der elektronischen Enzyklopädien auf Datenträgern erhält. Encarta 2009 (alias Microsoft Wissen und Lernen) ist größtenteils eine Download-Version mit ein wenig OEM hier und da. 

Brockhaus multimedial wurde dieses Jahr auf eine Version heruntergedampft, premium ist die neue Basis-Version. Mit der Übernahme im Nacken ist fraglich, ob und wie Folgeprodukte aussehen werden.

Auch Bertelsmann bzw. USM fällt 2008 nicht durch Innovation auf, eine 2009er-Version war nicht auffindbar.

Keine neue Version der DVD mit Wikipedia-Inhalten ist durch Directmedia angekündigt.

Tröstend ist, dass der Silberling nicht alt genug werden konnte, um einen Freundeskreis zu bekommen, der ihrem Tod nachflennen wird.

Danke an Team Pink.

Friday, June 15th, 2007

T-Online meldet in einer Pressemitteilung, daß sich Wikipedia über die Unterstützung von T-Mobile/Online/-elekom freut. Und ich mich auch. Wenn sich jetzt noch T-Mobile/-Online/-elkom über unsere Freude freuen könnte, ist ja alles bestens.

Außerdem freuen sich:

Wer sich noch mitfreuen will, kann das ja bloggen oder sich diese Seite (subtile Botschaft: Spenden!) anschauen.

Hupertatze Rumpelschröder

Friday, May 11th, 2007

Seinen eigenen Namen nicht kennen zu wollen ist ja jedem freigestellt. Den Namen anderer nicht zu kennen, kann zu Problemen führen. Ein Berliner Komiker will vom Geschäftsführer von Wikimedia Deutschland, daß dieser aufhört, Dinge zu tun, die dieser gar nicht getan hat: Seinen Namen zu nennen.

Beim Zurückziehen der Klage allerdings versucht er nun, den Spieß noch einmal herumzudrehen, er sei ja trotzdem im Recht. Hä? Verwechselt der neben Namen nun auch, daß er gerade nicht auf einer Comedy-Bühne steht?

Nein, du bist nicht lustig, Atze.

AFP zieht “seinen” Beitrag zurück

Thursday, October 5th, 2006

Mich hat heute abend eine Email von AFP erreicht. Im Anhang war eine AFP-Meldung, in der man den Rückzug der Amish-Hintergrundmeldung an die Redaktionen bekanntgibt:

USA/Schulen/Kriminalität

/Gewalt/HINTERGRUND
+++ DRINGENDER HINWEIS +++
Achtung Redaktionen, =bitte verwenden Sie unseren Hintergrund “Pazifisten mit Abneigung gegen Fortschritt – Die Bewegung der Amish in den USA” von Montag, 2. Oktober, 21.03 Uhr nicht mehr; löschen Sie bitte zudem diesen Hintergrund aus Ihren Archiven. Aufgrund einer individuellen Fehlleistung sind mehrere Passagen des Hintergrunds nahezu wörtlich dem Online-Lexikon Wikipedia entnommen worden, ohne die Quelle zu benennen.

Zwar sind in dem fraglichen Hintergrundartikel (der als Feiertagswiederholung auch am Dienstag, 3. Oktober, um 10.20 Uhr ausgesendet wurde) nach unserem Kenntnisstand keinerlei falsche Informationen verbreitet worden – die Fakten stimmen mit den Angaben in einer bereits vorliegenden entsprechenden AFP-Dokumentation überein, die ebenfalls Basis des fraglichen Artikels war. Ein Sprecher der betroffenen Wikipedia-Autoren besteht jedoch darauf, dass bei einer erneuten Verwendung des Artikels neben der Quellennennung auch auf die Lizenz, auf der der Artikel über Amische basiert, hingewiesen wird. Zudem soll ein Link zur Versionsgeschichte bzw. zur Liste der Autoren dieses Artikels genannt werden. Da diese Angaben in unserem Hintergrund nicht vorhanden sind, bitten wir Sie darum, den Text so nicht mehr zu verwenden.

Diese einmalige Verwendung von Teilen eines Wikipedia-Stichworts war ein grober Verstoß gegen die redaktionellen Richtlinien von AFP: Es wurden nicht die eigenen, verifizierten Informationen der AFP-Dokumentationsabteilung verwendet. Zudem wurde das Recht auf geistiges Eigentum verletzt, weil nicht nur Fakten, sondern auch Formulierungen übernommen wurden, und es wurde gegen die (durchaus liberalen) Quellennennungs- und Lizenzbestimmungen von Wikipedia verstoßen.

Die AFP-Chefredaktion hat auf dieses individuelle Fehlverhalten entsprechend reagiert. Wir sind uns sicher, dass es sich hier um einen Einzelfall handelt, der ohne Wiederholung bleibt.

akr/ncw