Automatische Annotation ist ein Bereich der Computerlinguistik, der im Zuge neuer Technologien immer mehr an Bedeutung gewinnt. So sind in den letzten Jahren vermehrt Anwendungsgebiete entstanden, die auf Erkenntnisse der linguistischen Forschung zurückgreifen. Das sind unter anderem E-Learning, digitales Publizieren und multimediale Informationssysteme (vgl. Mehler 2004, S.1). Ihre Realisierung erfordert automatische Textanalysen, was auch die Grundlage für weitere Anwendungen, wie Übersetzungstools oder Spracherkennung, ist (ebd.). Besonders wichtig ist dabei die Keywordbestimmung, die sowohl in der Linguistik als auch im SEO-Bereich1 eine große Bedeutung hat (vgl. Damm 2012, S. 11). Dabei ist das Vergeben von Keywords in der Linguistik eher eine „Verschlagwortung“ (Liebert 2013, S.3), bei der Bezeichnungen zur inhaltlichen Beschreibung eines Objekts vergeben werden (ebd.). Die Bedeutung der Schlüsselwörter ist hierbei dynamisch und kann sich je nach Kontext ändern (vgl. Liebert 2013, S.4). Im SEO-Bereich ist ein Keyword ein thematisch relevanter Begriff, der von einer Suchmaschine leicht gefunden werden kann (vgl. Damm 2012, S.12). Schlüsselwörter werden nach Suchmaschinengesichtspunkten geordnet und ausgegeben (ebd.). Der Einfachheit halber wird im weiteren Text nicht zwischen verschiedenen Bedeutungen von „Keywords“ oder „Schlüsselwörtern“ unterschieden.
Die nachfolgende Arbeit basiert auf dem Paper „Automatic Annotation Suggestions for Audiovisual Archives: Evaluation Aspects“ (Gazendam et al. 2009), welches sich mit automatischen Annotationsvorschlägen bei audiovisuellen Daten auseinandersetzt. Der Fokus dieser Abhandlung liegt auf Annotationsvorschlägen bei textuellen Daten.

Excerpt

Inhaltsverzeichnis

Einführung
CHOICE-Projekt
Methodik des CHOICE-Projektes
- TF.IDF Score
- Cluster-and-rank-process - CARROT
- Pagerank
- CHOICE-Verfahren
Eigene Versuchsanordnung
Vorstellen der Ergebnisse
Vergleich: eigener Test vs. CHOICE-Projekt
Fazit
Literaturverzeichnis
Anhang
- Abbildungsverzeichnis
- Texte
- Textannotationen

Zielsetzung und Themenschwerpunkte

Die Hausarbeit befasst sich mit der automatischen Keywordbestimmung im Kontext des CHOICE-Projekts, einer Forschungsarbeit, die sich mit der automatischen Annotation von audiovisuellen Daten auseinandersetzt. Die Arbeit analysiert die Methodik des CHOICE-Projekts und vergleicht diese mit einer eigenen Versuchsanordnung, die textuelle Daten verwendet. Ziel ist es, die Effizienz und Genauigkeit von automatischen Keyword-Generierungstools zu evaluieren und die Möglichkeiten der computerlinguistischen Forschung im Bereich der Keywordbestimmung zu beleuchten.

Automatische Textannotation
Keywordbestimmung
Vergleich verschiedener Algorithmen (TF.IDF, CARROT, Pagerank)
Evaluation von Keyword-Generierungstools
Anwendung computerlinguistischer Methoden im SEO-Bereich

Zusammenfassung der Kapitel

Die Einführung stellt den Kontext der automatischen Textannotation und die Bedeutung der Keywordbestimmung in der Linguistik und im SEO-Bereich dar. Das CHOICE-Projekt wird vorgestellt, welches sich mit der automatischen Annotation von audiovisuellen Daten beschäftigt. Die Methodik des Projekts, die auf der GATE-Plattform basiert, wird erläutert, wobei die drei Stufen der Annotierung, das Keywordranking und der Cluster- und Rerankprozess im Detail beschrieben werden.

Die eigene Versuchsanordnung wird vorgestellt, die textuelle Daten aus dem Nachrichtenportal Spiegel Online verwendet und vier verschiedene Keyword-Generierungstools einsetzt. Die Ergebnisse der quantitativen und qualitativen Analyse werden präsentiert, wobei die Präzision der Tools im Vergleich zur manuellen Annotation betrachtet wird. Die Ergebnisse werden mit den Ergebnissen des CHOICE-Projekts verglichen, wobei Gemeinsamkeiten und Unterschiede der beiden Versuchsaufbauten und der erzielten Ergebnisse herausgestellt werden.

Das Fazit fasst die wichtigsten Erkenntnisse der Arbeit zusammen und diskutiert die Bedeutung der automatischen Annotation und der Keywordbestimmung im Kontext neuer Technologien und Anwendungsgebiete.

Schlüsselwörter

Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen die automatische Textannotation, die Keywordbestimmung, das CHOICE-Projekt, den TF.IDF Score, CARROT, Pagerank, SEO, computerlinguistische Verfahren, Textanalyse, Information Retrieval, Evaluation, Präzision, Recall, manuelle Annotation, Algorithmen, Vergleich, Ergebnisse, Fazit und die Anwendung computerlinguistischer Methoden im Bereich der Sprach- und Texttechnologie.

Häufig gestellte Fragen

Was ist das CHOICE-Projekt?

Ein Forschungsprojekt, das sich mit der automatischen Annotation und Keywordbestimmung für audiovisuelle Archive beschäftigt.

Wie funktioniert der TF.IDF Score?

Er bewertet die Wichtigkeit eines Wortes für ein Dokument in einer Sammlung, indem er die Häufigkeit im Text mit der Seltenheit in der Gesamtsammlung abgleicht.

Was ist der CARROT-Algorithmus?

Ein Cluster-and-Rank-Verfahren, das Suchergebnisse oder Texte thematisch gruppiert und die relevantesten Begriffe daraus extrahiert.

Warum ist automatische Annotation für SEO wichtig?

Sie hilft dabei, relevante Schlüsselwörter schnell zu identifizieren, damit Inhalte von Suchmaschinen besser gefunden und kategorisiert werden können.

Wie präzise sind Keyword-Generierungstools im Vergleich zu Menschen?

Die Arbeit zeigt, dass Tools oft gute Vorschläge liefern, aber bei der qualitativen Auswahl und dem Kontextverständnis noch hinter der manuellen Annotation zurückbleiben.

Excerpt out of 18 pages - scroll top

Details

Title: Das CHOICE-Projekt. Automatische Keywordbestimmung
College: University of Trier
Course: Computerlinguistische Techniken für Digital Humanities/Computerlinguistische Verfahren in der Sprach- und Texttechnologie
Grade: 1,0
Author: Daniel Heißenstein (Author)
Publication Year: 2013
Pages: 18
Catalog Number: V229858
ISBN (eBook): 9783656460084
ISBN (Book): 9783656460251
Language: German
Tags: choice-projekt automatische keywordbestimmung
Product Safety: GRIN Publishing GmbH

Quote paper: Daniel Heißenstein (Author), 2013, Das CHOICE-Projekt. Automatische Keywordbestimmung, Munich, GRIN Verlag, https://www.grin.com/document/229858

Das CHOICE-Projekt. Automatische Keywordbestimmung