Posts Tagged ‘Wikipedia’

Heavy Metal auf Finnisch

Tuesday, February 17th, 2009

Wer derzeit in der kompletten Wikipedia suchen will, hat es nicht leicht. Die konkrete Suchanfrage muss mitunter für viele Sprachen neu angepasst werden, in der Regel auch bei Namen. Wenn ich alle Inhalte über Helmut Kohl in Wikipedia finden will, hilft mir natürlich beispielsweise bei google folgende Anfrage:

Helmut Kohl site:wikipedia.org

Wer will, kann auch nach “Helmut Kohl” suchen und findet dann keinen “Helmut Josef Michael Kohl” mehr, dafür auch keinen “Helmut Fischer und Johannes Kohl”.

Der Artikel הלמוט קוהל in der hebräischen Wikipedia wird nur gefunden, weil in der Infobox auch seine Schreibweise auf lateinisch steht. 34 andere Treffer gehen unter und werden erst via

"הלמוט קוהל" site:he.wikipedia.org

gefunden. “” sind auch hier wieder Geschmackssache.

Mit einer Zeile in der Shell kann man aus einem einzelnen Dump der Wikipedia eine Liste der Interwikilinks extrahieren, die bei dieser Übersetzungsarbeit hilft. Das Resultat ist dann ungefiltert und hilft bei vielen Begriffen recht angenehm weiter:

Sozialstaat
    ca:Estat del benestar
    cs:Sociální stát
    en:Welfare state
    eo:Sociala Ŝtato
    es:Estado Social
    et:Heaoluriik
    fi:Hyvinvointivaltio
    fr:État-providence
    gl:Estado social
    he:מדינת רווחה
    it:Welfare state
    ja:福祉国家論
    ko:복지국가
    nl:Welvaartsstaat
    nn:Velferdsstat
    no:Velferdsstat
    pl:Państwo opiekuńcze
    pt:Estado do bem-estar social
    ru:Социальное государство
    sk:Štát blahobytu
    pl:Cătălin Hîldan
    ro:Cătălin Hîldan

Und jetzt sind wir eigentlich schon mittendrin in dem typischen Anwendungsszenario:

  1. Ich tippe meinen Suchbegriff ein (z.B. Keuchhusten)
  2. Der Suchbegriff wird in x Sprachen übersetzt ( en:Pertussis, es:Tos ferina, fi:Hinkuyskä,fr:Coqueluche,he:שעלת,hu:Szamárköhögés..)
  3. Zu jedem Paar der Übersetzung wird in der Wikipedia-Sprachausgabe gesucht: Keuchhusten site:de.wikipedia.org, Pertussis site:en.wikipedia.org, Tos ferina site:es.wikipedia.org…)
  4. Die Suchtreffer werden zurückübersetzt (en, es, hu) und in einer gemeinsamen Trefferliste dargestellt.

Nicht nur darum freue ich mich auf die Arbeit von Daniel.

Tags: , ,

Verwandte Artikel

Gesichtete Versionen auf de.wikipedia.org: Feine Sache

Sunday, February 15th, 2009

Philipp Birken hat auf wikide-l einen Bericht über die Gesichteten Versionen verteilt:

Am 4. Februar waren alle Artikel der deutschsprachigen Wikipedia mindestens einmal gesichtet. Seitdem müssen also nur noch Neuanlagen von Nichtsichtern angeschaut werden. Im Schnitt waren es vorher über 1.000 erstmalige Markierungen von Artikeln pro Tag, diese kommen nun  den Nachsichtungen zu gute, so dass die Anzahl an Seiten mit noch nachzusichtenden Änderungen in einer Woche von fast 13.000 auf um die 5.000 gefallen ist (siehe http://toolserver.org/~aka/cgi-bin/reviewcnt.cgi?lang=german&action=images&project=dewiki letztes Bild). Wichtiger ist, dass die maximale Wartezeit von 16 Tagen auf nun unter 7 Tage gefallen ist, womit wir uns endlich in einem akzeptablen Bereich bewegen. Ziel ist es, diese Zahl bis Dienstag auf  5 Tage zu drücken  (http://de.wikipedia.org/wiki/Wikipedia:Gesichtete_Versionen/Nachsichtung).  Der Median, wann eine Änderung eines Nichtsichters als gesichtet markiert wurde, bewegt sich weiterhin im Stundenbereich.

Fettdruck von mir.

Daten über den aktuellen Zustand findet man bei aka.

Vorschläge zum Mithelfen in der Wikipedia.

Tags: , ,

Verwandte Artikel

Ein Wilhelm mehr oder weniger

Tuesday, February 10th, 2009

Am 8. Februar 2009 fügt ein nicht angemeldeter Benutzer dem künftigen Wirtschaftsminister einen weiteren Namen zu: Wilhelm.

Diese nach heutigem Wissen offenbar unrichtige Angabe hält sich lange genug, dass der Name es in die Nachrichten schafft. Und damit für Wikipedia zur Quelle avanciert.

Bildblog lässt einen anonmen Gastautor ein paar Zeilen dazu schreiben, enthalten sind auch Links auf all diejenigen Seiten, die den Wilhelm übernommen haben. in der Summe also ein Remake der Sache mit dem Bundespräsidenten, den Fußballweltmeisterinnen und dem Bügelbrett.

Tags: , , , ,

Verwandte Artikel

Wikipedia hat 256 Sprachausgaben zu viel (perspektivisch)

Wednesday, February 4th, 2009

Jetzt einmal unterstellt, es gäbe eine technisch hochwertige Übersetzungsfunktion von Sprache A nach B, die automatisch reproduzierbar und auf dem Niveau eines Muttersprachlers Übersetzungen bereitstellt. Wozu bräuchte man dann noch zwei oder mehr verschiedene Sprachausgaben von Wikipedia, wenn jeder in seiner eigenen Muttersprache lesen, editieren und kommentieren könnte? Alle Sprachausgaben sind vom neutralen Standpunkt getragen, die Anbindung einer Sprache an eine bestimmte Nation, Region oder Kultur ist sowieso eher unerwünscht. Warum dannn die Verschwendung, die 60 Experten zu einem Nischenthema auf 257 Sprachausgaben zu verteilen?

Und auch ohne die oben erträumte Software, die es jetzt noch nicht gibt und die wohl eher Dekaden als Jahre dauern wird: Wäre es nicht hilfreich, viel mehr Text finden zu können, ohne sich um die Quellsprache des Dokumentes kümmern zu müssen?

Tags:

Verwandte Artikel

Pressemitteilung Wikimedia Deutschland: Spendenkampagne

Monday, February 2nd, 2009

PRESSE- INFORMATION
Berlin, 30.01.2009


Wie viel ist Freies Wissen wert?

Trotz Finanzkrise und Wirtschaftsflaute hat die Spendenkampagne 2008/2009 für Wikipedia die Erwartungen übertroffen.
Die Online-Enzyklopädie Wikipedia genießt große Bekanntheit, aber nur wenige wissen, dass sich die Website überwiegend durch Spenden finanziert. Zum ersten Mal fand ein Spendenaufruf als Gemeinschaftsprojekt der Wikimedia Foundation mit Sitz in San Francisco und Wikimedia Deutschland statt. Vom 4. November 2008 bis 9. Januar 2009 wurden die Nutzer von Wikipedia durch ein Spendenbanner auf den Wikimedia-Internetseiten ermuntert für freies Wissen zu spenden. Der internationale Spendenaufruf brachte der Wikimedia Foundation weit über 6 Millionen US Dollar ein. Erfolgreich war auch das Spendenaufkommen in Deutschland. Während der Spendenkampagne 2008/2009 sammelte Wikimedia Deutschland e.V. innerhalb von 66 Tagen genau 341.647,47 Euro. Dies bedeutet gegenüber dem Vorjahr eine Steigerung von 65,2 Prozent. 2007 wurden über einen Zeitraum von 76 Tagen insgesamt 206.839,46 Euro eingenommen.
Die Spendeneinnahmen des Vereins bestehen fast ausschließlich aus Einzelspenden. Waren es im Jahr 2007 noch rund 4.560 Einzelspender, verdoppelte sich die Zahl der Freunde und Förderer im Spendenjahr 2008/2009 auf mehr als 9.180. Die durchschnittlichen Einnahmen im Spendenzeitraum lagen bei 5.176,48 Euro pro Tag, bei einer durchschnittlichen Höhe der Einzelspenden von 37,20 Euro. Mit einer Tageseinnahme von 27.951,00 Euro erreichte der 30. Dezember 2008 das Rekordergebnis; im Jahr 2007 lag der Tagesrekord bei 12.708,11 Euro.
„Der Spendenaufruf hat erneut darauf aufmerksam gemacht, dass die unabhängige und werbefreie Wikipedia und andere Schwesterprojekte nur durch das Engagement ehrenamtlicher Autoren und Spenden möglich sind. Das rasante Wachstum der Enzyklopädie und die weiterhin stark steigenden Zugriffszahlen von monatlich rund zehn Milliarden Seitenabrufen machen Jahr für Jahr größere Ausgaben für den Betrieb notwendig,“ erklärt Kurt Jansson, Erster Vorsitzender Wikimedia Deutschland.
Ein großer Teil des Geldes wird für neue Server, die Weiterentwicklung der Software und den immensen Datentransfer benötigt. Darüber hinaus werden historische Quellen digitalisiert, Informationsveranstaltungen und Workshops durchgeführt, Schreibwettbewerbe und Literaturstipendien unterstützt.
„Millionen Menschen profitieren vom Wikipedia-Projekt – sei es bei der beruflichen Recherche, im Studium oder auch schlicht beim Stöbern und Entdecken. Wir hoffen, dass diejenigen, die nicht die Zeit finden, sich als Autor zu engagieren, den Betrieb dieser einmaligen Sammlung menschlichen Wissens finanziell unterstützen. So kann Wikipedia weiterhin ein Projekt von allen für alle bleiben,“ begründet Kurt Jansson den diesjährigen Spendenaufruf. Auch nach Beendigung des Spendenaufrufs sind Spenden auf der Vereinsseite der Wikimedia Deutschland weiterhin möglich.
Geplante Projekte der Wikimedia wie zum Beispiel die Aktionstage an Schulen, mit dem Ziel Schülern und Lehrern den richtigen und kritischen Umgang mit Wikipedia zu vermitteln, benötigen noch weitere finanzielle Unterstützung.

Spenden unter: https://spenden.wikimedia.de

Die Stärke von Wikipedia liegt im freiwilligen Engagement von Menschen aller Altersstufen, aus allen Kontinenten und unterschiedlichen Kulturen, die einen Teil ihrer Zeit oder ihres Geldes dafür aufwenden, das Wissen der Menschheit allen Menschen auf der Welt frei zugänglich zu machen. Durch diese Unterstützung ist es Wikipedia gelungen, in wenigen Jahren nicht nur eine der 10 beliebtesten Websites weltweit zu werden, sondern auch die größte Enzyklopädie der Welt. Weit über 870.000 Artikel enthält derzeit allein die deutschsprachige Version. Insgesamt sind bei Wikimedia-Projekten über 10 Millionen Artikel in über 260 Sprachen abrufbar.

Pressekontakt:
Wikimedia Deutschland e.V.
Catrin Schoneville
Pressesprecherin
Tel.: (030) 219 158 26-0
catrin.schoneville@wikimedia.de
Weitere Informationen:
www.wikimedia.de

Tags: , ,

Verwandte Artikel

Bücher in “Libreka!”

Friday, January 23rd, 2009

Die Büchervolltextsuchmaschine “libreka!” des Börsenvereins des Deutschen Buchhandels enthält derzeit um die 88.000 Titel. Ich habe die Liste der ISBN-Angaben mit den aus der Wikipedia referenzierten Angaben verglichen, es gibt 12531 Übereinstimmungen. Insgesamt referenziert die deutschsprachige Wikipedia 230.000 unterschiedliche ISBN-Sätze.

Tags: , ,

Verwandte Artikel

Jahrbuch reloaded

Thursday, January 22nd, 2009

Auf meta.wikimedia.org wird seit 2004 an einer Liste gebastelt, die derzeit genau 1000 Einträge umfasst: Artikel, die jede Wikipedia (-Sprachausgabe) haben sollte. Man kann durchaus mit guten Gründen das Ziel, eine für die ganze Welt, alle Sprachen und Länder und Kulturen “verbindliche” Liste von 1000 Basis-Artikeln zu definieren durchaus kritisieren, ganz zu schweigen von der konkreten Umsetzung. Die aktuelle Liste “Version 1.1″ umfasst derzeit Artikel folgender “Rubriken”, wenn man die Kategorienwahl der Autoren dieser Liste als Maßstab nimmt:

  • 216 Biographien
  • 40 Geschichte
  • 148 Geographie
  • 77 Gesellschaft
  • 150 Kultur
  • 245 (Natur-)Wissenschaft
  • 71 Technologie
  • 31 Nahrungsmittel
  • 22 Mathemathik

Auch hier kann man ordentlich herumkritisieren, etwa an dem eindimensionalen Verständnis einer Kategorienzuweisung für einen einzelnen Artikel.

Das schöne an einer in einer Sprache verfassten Liste von 1000 der approximativ “zentralsten” Artikel ist, dass die Chancen steigen, möglichst viele dieser Artikel einer jeweiligen Sprache zu finden. Das Werkzeug der Wahl ist dabei die Interwikilink-Liste. Wer will, kann sie sich auch herunterladen. Eine erste Aufwertung findet sich auch, die Liste der Sprachen, sortiert nach dem Zustand dieser 1000 Artikel. Dieser Ansatz riskiert, jene Artikel zu übersehen, die zwar in einer Sprache schon existieren, aber noch nicht in der englischsprachigen Wikipedia verlinkt sind.

Mit einer solchen halbwegs stabilen Liste kann man auch den Jahrbuch-Ansatz noch einmal neu aufziehen: Nicht die Artikelnamen ändern sich, sondern die Inhalte werden jeweils neu gerendert. Für ein großartiges Werkzeug für diese Aufgabe halte ich wahlweise PrinceXML oder die collections-MediaWiki extension. Ersteres hat den Vorteil, sehr schöne Resultate zu liefern, collections hingegen ist unter einer freien Lizenz verwendbar.

Tags: , ,

Verwandte Artikel

Neuer Datensatz der deutschsprachigen Wikipedia

Wednesday, January 21st, 2009

Unter download.wikimedia.org findet sich seit 2 Stunden ein neuer Satz (“dump”) der deutschsprachigen Wikipedia.

Zusammen mit dem großartigen Tool von Lars Aronsson zur Auswertung sind damit ein paar sehr schöne Auswertungen von Tabellen- bzw. Template-Inhalten möglich.

Tags: ,

Verwandte Artikel

Schöner lesen mit XML-Prinzen

Sunday, January 11th, 2009

2004 stellte Thomas Karcher in Wikipedia das Projekt “WikiReader” vor: Einzelne Wikipedia-Inhalte beispielsweise zum Thema Schweden werden zusammenkopiert, hübsch gemacht, ggf. korrekturgelesen und dann als PDF oder gedruckte Ausgabe verteilt.

Seitdem gab es diverse Ansätze und technische Konzepte (wiki2pdf, wiki2xml, pediapress (code), pdfwwe), um (Media)Wiki-Text nach PDF und hübsch zu exportieren. Gestern habe ich durch Zufall einen neuen Ansatz entdeckt, den Kenner vielleicht schon aus anderen Zusammenhängen längst kennen: PrinceXML.

Prince liefert ein paar Beispiele, die ich persönlich für die beste mir bekannte Umsetzung von HTML/XHTML/XML nach PDF halte. Darunter sind auch drei Wikipedia-Artikel (United States, Norway und Soviet Union) aus der englischsprachigen Ausgabe.

Prince wird für private Zwecke kostenfrei zum Download für diverse Plattformen angeboten, kommerzielle Nutzung hingegen wird etwas teurer.

Der größte deutschsprachige Wikipedia-Artikel (Geschichte Polens) rendert auf meinem Notebook in 26 Sekunden durch, heraus kommt ein 65 Seiten starkes PDF, das natürlich noch kleinere Macken in der Umsetzung hat. Ein professioneller Layouter wird hier unendlich schönere Ergebnisse liefern. Vermutlich wäre auch noch einiges auf Seiten von Wikipedia verbesserungsfähig, um das Ergebnis noch weiter zu verschönern.

Ich empfehle Prince zum uneingeschränkten Herumspielen.

Screenshot von Prince: Geschichte Polens

Screenshot von Prince: Geschichte Polens

Tags: , , ,

Verwandte Artikel

Kurztest: Literaturverlinkung in Wikipedia

Thursday, January 8th, 2009

Eine winzige Bestandsaufnahme: 20 zufällig ausgewählte Artikel angeschaut und nach Literaturhinweisen gezählt.

  1. Mariengymnasium Jever: Keine Literaturangaben, ein Weblink, ein Geokoordinatenlink
  2. Charles David Walker: Keine Literaturangaben, zwei Weblinks
  3. Meißner Schuhfabrik: Keine Literaturangaben, zwei Weblinks
  4. Ismael Kirui: Keine Literaturangaben, zwei Weblinks
  5. Flugplatz Abaiang: Keine Literaturangaben, ein Geokoordinatenlink
  6. Schlossbibliothek Dyck: Eine Literaturangabe, drei Weblinks
  7. Benguela (Provinz): Keine Literaturangaben, zwei Weblinks
  8. Charakterstück (Musik): diverse Literaturangaben im Text
  9. Terceira: Begriffsklärungsliste
  10. U-Bahn Nagoya: Keine Literaturangaben, vier Weblinks, ein Commons-Link
  11. Der Spiegel: Zwölf Literaturangaben, 36 Einzelnachweise, neun Weblinks
  12. Ferdinand Graf: Keine Literaturangaben, ein Weblink
  13. Großer Klappertopf: Drei Literaturangaben, ein Weblink, ein Commons-Link
  14. Rabindranath Thakur:  30 Literaturangaben, 18 Weblinks, zehn Einzelnachweise
  15. Geschichte der Juden in Norwegen:  Eine Literaturangabe, sechs Weblinks
  16. Raphael Lemkin: Vier Literaturangaben, sieben Weblinks
  17. Maass: Begriffsklärungsliste
  18. Kilomètre zéro:  Keine Literaturangaben, Zwei Weblinks
  19. Julia Malik: Eine Quellenangabe, ein Weblink
  20. Paul Scherrer: Eine Literaturangabe, zwei Weblinks

Erfreulich: Die Vorlage für die PND, die Personennamendatei wird in den biographischen Einträgen genutzt. Richtig schön umgesetzt wurden die Literaturangaben beispielsweise im Spiegel-Artikel oder beim Klappertopf. Bei Thakur wäre deutlich mehr möglich gewesen.

Schade, dass es keine frei verfügbare Datenbank deutschsprachige Literatur mit hinreichend vielen Metadaten gibt.

Tags: , ,

Verwandte Artikel