Automatische Annotation ist ein Bereich der Computerlinguistik, der im Zuge neuer Technologien immer mehr an Bedeutung gewinnt. So sind in den letzten Jahren vermehrt Anwendungsgebiete entstanden, die auf Erkenntnisse der linguistischen Forschung zurückgreifen. Das sind unter anderem E-Learning, digitales Publizieren und multimediale Informationssysteme (vgl. Mehler 2004, S.1). Ihre Realisierung erfordert automatische Textanalysen, was auch die Grundlage für weitere Anwendungen, wie Übersetzungstools oder Spracherkennung, ist (ebd.). Besonders wichtig ist dabei die Keywordbestimmung, die sowohl in der Linguistik als auch im SEO-Bereich1 eine große Bedeutung hat (vgl. Damm 2012, S. 11). Dabei ist das Vergeben von Keywords in der Linguistik eher eine „Verschlagwortung“ (Liebert 2013, S.3), bei der Bezeichnungen zur inhaltlichen Beschreibung eines Objekts vergeben werden (ebd.). Die Bedeutung der Schlüsselwörter ist hierbei dynamisch und kann sich je nach Kontext ändern (vgl. Liebert 2013, S.4). Im SEO-Bereich ist ein Keyword ein thematisch relevanter Begriff, der von einer Suchmaschine leicht gefunden werden kann (vgl. Damm 2012, S.12). Schlüsselwörter werden nach Suchmaschinengesichtspunkten geordnet und ausgegeben (ebd.). Der Einfachheit halber wird im weiteren Text nicht zwischen verschiedenen Bedeutungen von „Keywords“ oder „Schlüsselwörtern“ unterschieden.
Die nachfolgende Arbeit basiert auf dem Paper „Automatic Annotation Suggestions for Audiovisual Archives: Evaluation Aspects“ (Gazendam et al. 2009), welches sich mit automatischen Annotationsvorschlägen bei audiovisuellen Daten auseinandersetzt. Der Fokus dieser Abhandlung liegt auf Annotationsvorschlägen bei textuellen Daten.
Inhaltsverzeichnis
1. Einführung
2. CHOICE-Projekt
3. Methodik des CHOICE-Projektes
3.1 TF.IDF Score
3.2 Cluster-and-rank-process - CARROT
3.3 Pagerank
3.4 CHOICE-Verfahren
4. Eigene Versuchsanordnung
5. Vorstellen der Ergebnisse
6. Vergleich: eigener Test vs. CHOICE-Projekt
7. Fazit
8. Literaturverzeichnis
9. Anhang
9.1 Abbildungsverzeichnis
9.2 Texte
9.3 Textannotationen
1. Einführung
Automatische Annotation ist ein Bereich der Computerlinguistik, der im Zuge neuer Technologien immer mehr an Bedeutung gewinnt. So sind in den letzten Jahren vermehrt Anwendungsgebiete entstanden, die auf Erkenntnisse der linguistischen Forschung zurückgreifen. Das sind unter anderem E-Learning, digitales Publizieren und multimediale Informationssysteme (vgl. Mehler 2004, S.1). Ihre Realisierung erfordert automatische Textanalysen, was auch die Grundlage für weitere Anwendungen, wie Übersetzungstools oder Spracherkennung, ist (ebd.). Besonders wichtig ist dabei die Keywordbestimmung, die sowohl in der Linguistik als auch im SEO-Bereich[1] eine große Bedeutung hat (vgl. Damm 2012, S. 11). Dabei ist das Vergeben von Keywords in der Linguistik eher eine „Verschlagwortung“ (Liebert 2013, S.3), bei der Bezeichnungen zur inhaltlichen Beschreibung eines Objekts vergeben werden (ebd.). Die Bedeutung der Schlüsselwörter ist hierbei dynamisch und kann sich je nach Kontext ändern (vgl. Liebert 2013, S.4). Im SEO-Bereich ist ein Keyword ein thematisch relevanter Begriff, der von einer Suchmaschine leicht gefunden werden kann (vgl. Damm 2012, S.12). Schlüsselwörter werden nach Suchmaschinengesichtspunkten geordnet und ausgegeben (ebd.). Der Einfachheit halber wird im weiteren Text nicht zwischen verschiedenen Bedeutungen von „Keywords“ oder „Schlüsselwörtern“ unterschieden.
Die nachfolgende Arbeit basiert auf dem Paper „Automatic Annotation Suggestions for Audiovisual Archives: Evaluation Aspects“ (Gazendam et al. 2009), welches sich mit automatischen Annotationsvorschlägen bei audiovisuellen Daten auseinandersetzt. Der Fokus dieser Abhandlung liegt auf Annotationsvorschlägen bei textuellen Daten.
2. CHOICE-Projekt
Das CHOICE-Projekt ist eine Arbeit von Gazendam et al. im Auftrag des holländischen Instituts für Bild und Ton (vgl. Gazendam et al. 2009). Dabei wurden 258 TV-Dokumentationen und 362 Kontextdokumente archiviert und analysiert (ebd.). Relevant ist die Keywordbestimmung für Kunden, die Themen, Zitate oder Informationen aus audiovisuellen Daten extrahieren wollen (ebd.). Ziel des Projektes war es, die Geschwindigkeit und Effizienz beim Katalogisieren zu erhöhen, da bei manueller Annotation höhere Kosten entstehen und die dreifache Zeit benötigt wird (ebd.). Automatisch generierte Annotationsvorschläge sollen eine Hilfe für Annotatoren darstellen und so die Übereinstimmungsrate beim Katalogisieren erhöhen (ebd.). Für die Entwicklung eines eigenen Tools[2] gab es drei grundlegende Möglichkeiten: Manuelle, halbautomatische oder automatische Annotation. Gazendam et al. haben sich für die automatische Variante mithilfe der GATE-Plattform[3] entschieden. Die Annotierung und das Ranking im Projekt haben drei Stufen: Die Textannotierung, ein Keywordranking und ein Cluster- und Rerankprozess (ebd.). Die Methodik wird unter Punkt drei ausführlich erläutert. Verwendet wurde dafür ein kontrolliertes Vokabular[4], das GTAA (Holländisch für „Common Thesaurus [for] Audiovisuell Archives“), welches rund 3800 Keywords und 21000 Relationen umfasst (ebd.). Im Versuch sind die angelegten Kriterien für Keywords die Häufigkeit ihres Vorkommens, die semantischen Relationen zu anderen Schlüsselwörtern und die Bewertung ihres Keywordpotentials (ebd.). Hierbei wurden verschiedene Algorithmen auf ihre Effizienz getestet, unter anderem ein eigens entwickelter, gemischter Algorithmus. Um Vergleichbarkeit zu gewährleisten, wurde die manuelle Annotation seitens der Forscher als Goldstandard[5] festgelegt. Ausgewertet wurde das Projekt klassisch mit Precision/Recall[6] und semantisch (ebd.).
3. Methodik im CHOICE-Projekt
Im Experiment wurde mit verschiedenen Algorithmen experimentiert. Unter anderem mit dem TF.IDF Score, CARROT und Pagerank (vgl. Gazendam 2009). Diese werden nun vorgestellt und anschließend wird die gesamte Versuchsmethodik erläutert.
3.1 TF.IDF Score
TF.IDF steht für „Term Frequency with Inverse Document Frequency“, was so viel bedeutet wie Ausdruckshäufigkeit mit inverser Dokumenthäufigkeit (vgl. Wikipedia 2013). Im Versuch von Gazendam et al. wird der Wert als Basis und Vergleichswert verwendet. TF.IDF ist ein Information Retrieval Algorithmus, der häufig bei Data Mining Anwendung findet (vgl. Khosla et al. 2006, S. 695). Weitere Anwendungsgebiete sind die Textklassifikation und -zusammenfassung (vgl. Jones 1972). Die Termfrequenz steht dafür, wie oft ein Term in einem Dokument vorkommt; die inverse Termfrequenz misst die Bedeutung des Terms für alle Dokumente (vgl. Khosla et al. 2006, S. 695f). Der Wert ist demnach ein statistisches Maß, welches den semantischen Wert zwischen Wörtern und Dokumenten kalkuliert (ebd.). Nach Khosla et al. ist es ein einfacher Ansatz, der die abstrakte Idee der semantischen Bedeutung gut darstellt. Je öfter ein Ausdruck auftaucht, desto höher ist der TF.IDF Wert. Verschiedene Variationen des Algorithmus werden bei Suchmaschinen verwendet, um die Dokumentrelevanz festzustellen (vgl. Jones 1972). Der Wert kann leicht variiert werden und ist so eine Grundlage für andere Anwendungen, was auch bei Gazendam et al. der Fall war (vgl. Gazendam et al. 2009).
3.2 Cluster-and-rank-process – CARROT
CARROT steht für „Cluster and rank related ontology concepts or thesaurus terms“ (Gazendam et al. 2009). Der Algorithmus stammt von Malaise et al. und ist ein Cluster-and-rank-process. Hierbei werden Begriffe zu Gruppen geclustert und aufgrund ihrer Zugehörigkeit und Häufigkeit wird ein Reranking vorgenommen (vgl. Gazendam et al. 2009). Clustern ist die Entdeckung von Ähnlichkeitsstrukturen in Daten oder Dokumenten, die gruppiert (geclustert) werden (vgl. Ester/Sander 2000, S. 90). CARROT kombiniert die „connectedness“[7] (Malaise et al. 2007, S. 197) mit dem TF.IDF Score. Die connectedness wird dabei in vier Kategorien unterschieden: Von keiner Verbindung bis hin zu gleicher Distanz (vgl. ebd.). Das dient der Klassifizerung von Resultaten und erleichtert die Selektion für den Annotator (vgl. ebd.). Der Algorithmus erreicht eine Genauigkeit von bis zu 95% und hilft dabei, die Annotation zu erleichtern und zu beschleunigen (vgl. ebd.). Je mehr Verbindungen ein Term zu anderen Termen im Text hat, desto wichtiger ist er. Mehr Relationen bedeuten also eine höhere Wichtigkeit (vgl. Malaise et al. 2007, S. 201). Brauchbare Ergebnisse erzielen dabei nur Top-Cluster, andere nur selten (vgl. Malaise et al. 2007, S. 202).
3.3 Pagerank
Pagerank ist ein von Brin/Page entwickelter Algorithmus, der die Zentralität von Objekten in einem Netzwerk anzeigt (vgl. Gazendam et al. 2009). Das Verfahren wird von Google verwendet und ist eine der Grundlagen für die Bewertung von Webseiten (vgl. Landau 2013). Pagerank bewertet verlinkte Dokumente anhand ihrer Struktur und gewichtet aufgrund ihrer Verlinkungsstruktur (vgl. Sobek 2013). Dabei stellt der Algorithmus die Linkpopularität einer Seite oder eines Dokumentes fest. Je wichtiger die verlinkende Seite, desto mehr zählt der Link (vgl ebd.). So wird die Linkstruktur des Korpus oder des gesamten Webs analysiert (vgl. ebd.). Einfluss auf die Linkstärke hat auch der thematische Bezug und die Position des Links (vgl. ebd.). Gazendam et al. hat den Pagerank Algorithmus ausgewählt, da er bei anderen Studien bessere Keywordvorschläge als TF.IDF machen konnte (vgl. Gazendam et al. 2009). Selbiges wurde vorher als Ergebnis der Studie erwartet.
3.4 CHOICE-Verfahren
Abbildung in dieser Leseprobe nicht enthalten
In der Arbeit von Gazendam et al. wurden vier Algorithmen eingesetzt: TF.IDF, CARROT, Pagerank und ein gemischter, selbst entwickelter Algorithmus.
Abbildung 1: CHOICE-Verfahren (Gazendam et al. 2009)
Das Verfahren hat drei Schritte. Zuerst wird der Text mithilfe eines Text-Annotators annotiert. Dieser taggt die Häufigkeit der im Thesaurus[8], in diesem Fall GTAA, vorkommenden Keywords. Das Ergebnis dieses Schrittes sind annotierte Texte. Der zweite Teil ist die TF.IDF Gewichtung. Hierbei wird ein Ranking der Schlüsselwörter aufgrund ihrer Termfrequenz und Dokumentbedeutung erstellt. Diese Keywordliste wird im dritten Schritt, dem Cluster-and-rank-process weiter bearbeitet. Die Schlüsselwörter werden anhand von Ähnlichkeitsstrukturen zu Gruppen geclustert und mit Hilfe der Cluster neu geordnet. Das Ergebnis des letzten Schrittes ist die fertige Keywordliste. Danach werden die verschiedenen Resultate der Algorithmen verglichen. Die Auswertung wurde auf zwei Arten durchgeführt: Klassisch (Precision/Recall) und semantisch (vgl. Gazendam et al. 2009). Aufgrund der besseren Vergleichbarkeit wurde bei dem folgendem Experiment die klassische Variante gewählt. Precision und Recall sind Information Retrieval Maße (vgl. Womser-Hacker 2004, S. 228). Precision beschreibt die Genauigkeit eines Retrievalergebnisses bei der Filterung unerwünschter Treffer. Dabei stehen die relevanten, gefundenen Dokumente im Verhältnis zur Treffermenge (vgl. Womser-Hacker 2004, S. 229f.). Recall hingegen beschreibt die Vollständigkeit des Retrieval-Systems und die Fähigkeit, relevante Dokumente zu selektieren. Hier stehen die relevanten, gefundenen Dokumente im Verhältnis zu den relevanten Dokumenten im Gesamtbestand (vgl. Womser-Hacker 2004, S. 229f). Ein Maß allein ist nicht aussagekräftig. Man muss sie zusammen betrachten (vgl. ebd.).
[...]
[1] Search Engine Optimization (Suchmaschinenoptimierung) (vgl. Damm 2012, S.11)
[2] Englisch für Werkzeug, Programm
[3] Definition: „a framework and graphical environment which enables users to develop and deploy language engineering components and resources in a robust fashion.“ (Cunningham et al. 2002, S.1)
[4] Sammlung von Begriffen, denen Bezeichnungen eindeutig zugeordnet wurden, um Homonymie und Synonymie zu vermeiden (vgl. Stock 2007, S. 451)
[5] Bestmögliche Einstellungen, mit denen verglichen wird (vgl. Gelbukh et al. 2003, S.405)
[6] Unter 3.4 erläutert
[7] entspricht lokaler Verbundenheit
[8] Wortnetz, kontrolliertes Vokabular (vgl. Wersig 1985, S.12)
-
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen.