Wikipedia ist eines der größten im Internet zugänglichen enzyklopädischem Wissensarchive. Das stetige Wachstum hat jedoch eine so große Menge an Daten geschaffen, dass es immer schwerer wird Informationen zu finden. Die unterstützende Strukturierung durch den Computer ist dringend notwendig. Voraussetzung ist eine maschinell lesbare, semantische Kommentierung In dieser Arbeit sollen die Möglichkeiten einer semantischen Wikipedia ausgeleuchtet werden und die Entwicklungen praktischer Ansätze nachvollzogen werden.
Inhalt
1 Motivation
2 Theoretischer Hintergrund
2.1 Grundbegriffe
2.2 Semantisches Wiki
3 Die Wikipedia als semantisches Wiki?
3.1 Aktuelle Umsetzung der Wikipedia
3.2 Nachteile der bestehenden Struktur
3.3 Vorteile einer semantischen Strukturierung der Wikipedia
3.4 Probleme, die durch Semantik in der Wikipedia entstehen
3.5 Überblick über den Entwicklungsstand praktischer Ansätze
3.6 Gründe für die Verzögerung einer Einführung von Semantik
4 Fazit
5 Literaturverzeichnis
1 Motivation
Liest man einen Artikel in Wikipedia über eine Stadt in georgischer Sprache, sieht man Zeichen, erkennt eventuell Namen oder Zahlen, versteht jedoch deren Bedeutung nicht. Etwa auf diese Weise nimmt ein Computer die Wikipedia wahr.
Es zeichnet sich jedoch ab, dass die Unterstützung des Computers für die Strukturierung der undurchschaubaren Menge an Informationen in Wikipedia immer dringender wird. Beispielsweise wird der Zeitaufwand, Informationen zu finden zu hoch, und nicht alles Wissen wird auch entdeckt. Voraussetzung für maschinelle Unterstützung ist aber, dass der Computer die Daten interpretieren kann, um sie sinnvoll zusammenzufassen und verknüpfen zu können. Dies kann entweder durch Künstliche Intelligenz, wie sie etwa Suchmaschinen im Internet verwenden, oder durch Semantik erreicht werden. Mit einer semantischen Beschreibung des Inhaltes würde der Computer die Bedeutung der wichtigsten Daten, wie zum Beispiel Name, Einwohnerzahl und Fläche einer Stadt verstehen und könnte sie mit anderen Inhalten vergleichen. Da an kaum einem anderen Ort im Netz Wissen und Daten so konzentriert und strukturiert vorliegen, steckt ein enormes Potential in einer durch den Rechner interpretierbaren Wikipedia.
Diese Arbeit beschäftigt sich, nach einer Erläuterung der Grundbegriffe, mit der Funktionsweise einer semantischen Wikipedia und lotet aus, welche Nachteile und Vorteile sie mit sich bringt. Daraufhin wird die Entwicklung einer praktischen Umsetzung bis heute nachgezeichnet und die Frage verfolgt, warum die Einführung einer semantischen Wikipedia so schleppend verläuft.
2 Theoretischer Hintergrund
2.1 Grundbegriffe
Wissen setzt sich aus Grundbausteinen zusammen, die Wissen speichern und kommunizieren. An erster Stelle steht das Zeichen, als kleinster Baustein. Aus den Zeichen setzen sich Daten, durch Verbindung der Zeichen in einer Syntax, zusammen. Eine Aussage über die Verwendung ist damit jedoch noch nicht gegeben. Daten werden zu Informationen, sobald sie angewendet und in einen Kontext eingeordnet werden. Auf Grundlage dieser Elemente entsteht Wissen dann als Vernetzung von Informationen, um mit der Kenntnis von Ursache und Wirkung Vorhersagen über die Realität zu treffen. Diese Aussagen werden nur für einen bestimmten Zweck gebildet und haben keinen absoluten und objektiven Charakter, sondern sind ein abstraktes Modell (Rehäuser & Krcmar, 1996, S. 4-7). Die Behauptung ist nur für einen Fall und für ein bestimmtes Subjekt gültig. „Demnach ist Wissen subjekt-, zweckrelativ, perspektivisch und setzt die Kenntnis seiner Herkunft voraus.“ (Rehäuser & Krcmar, 1996, S. 6).
Wissen lässt sich in explizites und implizites Wissen kategorisieren. Implizites Wissen ist nur teilweise formal darstellbar und kommunizierbar. Es setzt sich aus persönlichen Erfahrungen und Lernprozessen zusammen. Explizites Wissen hingegen lässt sich formal in Aussagen fassen und kann beispielsweise in Sätzen gespeichert und weitergegeben werden (Rehäuser & Krcmar, 1996, S. 7-8). Hierzu ist der Träger „Information“ als Kommunikationsmedium notwendig (North, 2005, S. 33).
Der schriftliche Austausch von explizitem Wissen geschieht durch Bücher, Zeitungen, das Internet, und, seit etwa 1994, auch durch Wikis. Das hawaiische Wort Wiki bedeutet übersetzt „schnell“ und „formlos“ und beschreibt eine Webseite, die eine frei erweiterbare Sammlung miteinander verlinkter Einträge enthält. Die Inhalte können ohne technisches Wissen bearbeitet und nach Belieben strukturiert werden (Leuf & Cunningham, 2005, S. 14-15). Die über 200 Software-Anwendungen, welche ein Wiki zur Verfügung stellen, unterscheiden sich zwar in ihrem Funktionsumfang, haben aber alle gemeinsam, dass jede Seite bearbeitet werden kann, interne Verlinkungen bestehen, die Änderungen verfolgt und rückgängig gemacht werden können (Ebersbach & Glaser, 2005, S. 131-132).
Nachdem die grundlegenden Begrifflichkeiten geklärt sind, wird darauf aufbauend das Semantische Wiki folgen.
2.2 Semantisches Wiki
Die Semantik ist neben der Syntaktik und der Pragmatik eine Teildisziplin der Semiotik, der Wissenschaft von den Zeichensystemen. Ein Zeichen wird von einem Interpreten mittelbar interpretiert. Das, wovon Notiz genommen wird, oder was vermeintlich wahrgenommen wird, bezeichnet man als Designant. Zum Beispiel wird Feuer durch das Zeichen Rauch designiert und ist in diesem Fall Designant. Die Beziehung des Zeichenträgers zu seinem Designanten wird als semantische Dimension bezeichnet, ihre Untersuchung obliegt der Semantik. Ein Zeichen ist dann vollständig analysiert, wenn die Beziehung zu anderen Zeichen, zu dem Interpreten und zu der Bedeutung hergestellt ist (Hoffmann, 2010, S. 112-113).
Ein herkömmliches Wiki erzeugt nur die syntaktische Ebene, die/der menschliche Leser/-in muss die Bedeutung erschließen und interpretieren. Ein semantisches Wiki zielt darauf ab, nicht nur die Verknüpfungen zwischen den Seiten untereinander darzustellen, sondern auch den einzelnen Artikeln und Verlinkungen zusätzliche Informationen, in Form ihrer Bedeutungen, maschinell lesbar hinzuzufügen.
Semantische Wikis werden für zwei Anwendungen genutzt: Wissensmanagement undOntology Engineering. Im Wissensmanagement verbessert die Semantik Navigation und Suche und unterstützt so das Wiederfinden von Wissen. Da die Inhalte, die ohne semantische Annotationen bestehen, weiter verwendet werden können, ist eine schrittweise Formalisierung möglich. Außerdem können mehrere Wikis, die unabhängig voneinander entstanden sind, integriert werden, um Daten miteinander auszutauschen. Die Entwicklung von Ontologien, also formal geordneter Begrifflichkeiten mit logisch definierten Beziehungen, wird durch ein semantisches Wiki sehr erleichtert, da vergleichsweise wenig Verständnis für die Formalismen notwendig ist und die Erweiterung schrittweise erfolgen kann (Schaffert, Bry, Baumeister, & Kiesel, 2007, S. 437-438). Beispielsweise entwickelt die Gene Regulation Ontology eine Sammlung von Begriffen, die die Zusammenhänge von Genen und ihrer Steuerung mit Hilfe eines semantischen Wikis formal ausdrückt (Gene Regulation Ontology, 2012).
3 Die Wikipedia als semantisches Wiki?
Nach der Klärung der Grundbegriffe schließt sich die Darstellung der semantischen Wikipedia an.
Im Folgenden werden die Möglichkeiten einer semantischen Strukturierung des Inhaltes der Wikipedia dargestellt und erörtert. Nach einer Analyse des aktuellen Aufbaus der Wikipedia werden die konkreten Vorteile und Hürden einer potentiellen Einführung von Semantik in die Wikipedia beleuchtet. Anschließend werden die Entwicklung praktischer Umsetzungen dargestellt und Gründe für die schleppende Einführung von Semantik in die Wikipedia gesammelt.
3.1 Aktuelle Umsetzung der Wikipedia
Die Wikipedia ist die Anwendung eines Wikis mit dem Selbstverständnis, eine frei editierbare Enzyklopädie zu sein. Entsprechend setzt sich der Begriff aus dem oben erläuterten „Wiki“ und „pedia“ für „encyclopedia“ zusammen (Wikipedia, 2012b). Sie wurde im Jahre 2001 mit dem Ziel gegründet, den einfachen Austausch von Wissen zu ermöglichen. Aus diesem Grund orientiert sich der Aufbau an didaktischen Ansprüchen menschlicher Leser/-innen (Krötzsch, Vrandečić, Völkel, Haller, & Studer, 2007, S. 253). Die Inhalte werden über Verlinkungen von Titeln und Begriffen im Fließtext verknüpft und zusätzlich in sogenannten Namensräumen und Kategorien zusammengefasst. Namensräume ordnen die Artikel nach Art, etwa Text, User, oder Foto. Kategorien ordnen hierarchisch innerhalb eines Namensraumes (Wikipedia, 2012b). Weiterhin sorgen Navigationsleisten, die innerhalb eines Artikels auf verwandte Inhalte verweisen, und Listen, die Einträge unter einem bestimmten Gesichtspunkt auflisten, für Orientierung (Wikipedia, 2012a).
3.2 Nachteile der bestehenden Struktur
Die beschriebene Struktur ist eine sinnvolle Unterstützung für die Recherche. Die formalen Ansprüche für die Interpretation durch einen Computer werden dabei jedoch nicht erfüllt. Sich daraus ergebende Nachteile sollen im Folgenden dargestellt werden.
Nachteilig sind synonyme Einträge, die trotz gleichen Inhaltes mehrfach bestehen, und homonyme Titel, die gleichzeitig auf vollständig unterschiedliche Inhalte verweisen. Es bestehen zwarredirects, Weiterleitungen von Synonymen zu einem Hauptartikel unddisambiguation pages,Übersichtsseiten, die Homonyme auflösen. Das begegnet dem Problem jedoch nur auf maschinell nicht lesbarer Ebene. So kann es beispielsweise passieren, dass gleiche Inhalte voneinander unabhängig an verschiedenen Stellen entstehen, weil die Doppelung nicht bemerkt wird (Krötzsch et al., 2007, S. 253).
Neben der Fehleranfälligkeit menschlichen Handelns ist auch die verarbeitbare Menge an Informationen begrenzt und könnte durch den Computer unterstützt werden. Allerdings können in Wikipedia Informationen, die über mehrere Artikel verteilt sind, nicht automatisch zusammengeführt werden. Eine Suchanfrage kann nicht mehrere Artikel gleichzeitig einschließen und anhand gewünschter Parameter vergleichen (Krötzsch et al., 2007, S. 251). Sucht man zum Beispiel alle James Bond Filme aus den Sechzigern, in denenSean Connerynicht mitspielt, wird kein sinnvolles Ergebnis ausgegeben, obwohl die Information in der Wikipedia gespeichert ist (Krötzsch, Vrandečić, & Völkel, 2005, S. 1-2).
Ebenso sind die Daten für Abfragen externer Dienste nur begrenzt brauchbar, weil ein Standard zum Austausch fehlt. Insbesondere bei Daten in Zahlenform ist die automatische Interpretation abhängig von Algorithmen, die durch Fehler die Qualität der extrahierten Daten herabsetzen (Krötzsch et al., 2007, S. 251).
[...]
-
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X.