Ein wichtiger Bestandteil der Schriftsprache sind die vielfältigen Formen von Abkürzungen. Während die Anzahl von Texten, Publikationen und Mitteilungen immer rasanter wächst, ist es wichtig, dass Abkürzungen und deren Bedeutungen immer richtig vom jeweiligen Rezipienten erkannt und verstanden werden. Je komplizierter und größer der Wortschatz jedoch wird, desto schwieriger wird es ebenfalls, dieses Gebot zu erfüllen. Vor allem in wissenschaftlichen Sprachzweigen stellt es daher eine immense Herausforderung dar, Abkürzungen in den ständig neuen Veröffentlichungen richtig ihren jeweiligen Bedeutungen zuzuordnen. Vor allem durch die rasante Neuschöpfung von Abkürzungen und die kaum noch zu gewährleistende Aktualität von entsprechenden Abkürzungswörterbüchern, kann diese Aufgabe von Hand kaum mehr erledigt werden. Darüber hinaus kommt dazu noch das Problem, dass viele Abkürzungen und Bedeutungen häufig mehrdeutig in Texten vorkommen und neben der zuverlässigen Erkennung auch die Auflösung dieser ambigen Begriffen stehen muss. Für fachspezifische Domänen, bestimmte Berufszweige und die vielfältigen Forschungsbemühungen ist daher die automatisierte Informationsextraktion und -Verarbeitung eines der wesentlichsten Ziele der computerlinguistischen Behandlung von Abkürzungen und Begriffen.
In der vorliegenden Arbeit sollen einige Verfahren vorgestellt werden, die sich mit der automatischen Erkennung von Abkürzungen und deren Auflösung zu der entsprechenden Langform beschäftigen. Dies wird am Beispiel des biomedizinischen Arbeitsgebiets geschehen, da hier ein sehr großer und exemplarischer Forschungsaufwand besteht. Darüber hinaus soll eine Auswahl an Methoden erläutert werden, welche mehrdeutigen Abkürzungen und Terme ihre eigentlichen kontextuellen Bedeutungen zuweisen sollen. Zunächst soll jedoch eine Einführung die Gründe und Ursachen für die Bedeutsamkeit von Abkürzungen beleuchten und unterschiedliche Typen von Abkürzung darstellen. Besonderes Augenmerk soll dabei auf Akronymen liegen, die den Drang nach Einfachheit in der Sprache wohl am besten verkörpern. Im Hauptteil der Arbeit wird deutlich werden, dass sich einige Methoden neben der Behandlung von gewöhnlichen Abkürzungen auch maßgeblich mit der Erkennung und Auflösung von Akronymen beschäftigen. Doch auch Lösungsansätze für Spezialfälle wie Gen- und Proteinbezeichnungen, welche ebenfalls Abkürzungen darstellen, werden vorgestellt.
Inhaltsverzeichnis
- 1. Einleitung
- 2. Abkürzungen
- 2.1. Varianten von Abkürzungen
- 3. Automatische Erkennung von Abkürzungen
- 3.1. Methode von Schwartz und Hearst
- 3.1.1. Precision und Recall
- 3.1.2. Resultate
- 3.2. Methode von Taghva und Gilbreth
- 3.2.1. Phase 1
- 3.2.2. Phase 2
- 3.2.3. Phase 3
- 3.2.4. Phase 4
- 3.2.5. Resultate
- 3.3. Methode von Yu, Hripcsak und Friedman
- 3.3.1. Phase 1
- 3.3.2. Phase 2
- 3.3.3. Resultate
- 3.3.4. Erweiterung der Methode für Gen- und Proteinbezeichnungen
- 3.1. Methode von Schwartz und Hearst
- 4. Auflösung von Mehrdeutigkeiten
- 4.1. Methode von Liu, Lussier und Friedman
- 4.1.1. Phase 1
- 4.1.2. Phase 2
- 4.1.3. Resultate
- 4.2. Weitere Methoden
- 4.2.1. Methode von Pakhmov
- 4.2.2. Methode von Nenadic, Spasic und Ananiadou
- 4.1. Methode von Liu, Lussier und Friedman
- 5. Ausblick
Zielsetzung und Themenschwerpunkte
Diese Arbeit untersucht Verfahren zur automatischen Erkennung und Auflösung von Abkürzungen, insbesondere im biomedizinischen Kontext. Ziel ist es, verschiedene Methoden zur automatisierten Verarbeitung von Abkürzungen vorzustellen und zu erläutern. Ein Schwerpunkt liegt auf der Behandlung von Mehrdeutigkeiten.
- Automatische Erkennung von Abkürzungen in biomedizinischen Texten
- Untersuchung verschiedener Methoden zur Abkürzungserkennung
- Auflösung von Mehrdeutigkeiten bei Abkürzungen
- Behandlung verschiedener Abkürzungstypen (inkl. Akronyme)
- Anwendungsbeispiel: Gen- und Proteinbezeichnungen
Zusammenfassung der Kapitel
1. Einleitung: Die Einleitung beleuchtet die wachsende Bedeutung der automatisierten Verarbeitung von Abkürzungen aufgrund des exponentiellen Wachstums wissenschaftlicher Texte. Sie hebt die Herausforderungen hervor, die durch die zunehmende Anzahl und Mehrdeutigkeit von Abkürzungen entstehen, insbesondere im biomedizinischen Bereich. Die Arbeit fokussiert auf die Vorstellung verschiedener Verfahren zur automatischen Erkennung und Auflösung von Abkürzungen und deren kontextueller Bedeutung.
2. Abkürzungen: Dieses Kapitel gibt einen historischen Überblick über den Gebrauch von Abkürzungen und differenziert zwischen verschiedenen Arten von Abkürzungen, darunter bruchstückhafte Abkürzungen, Kontraktionen, Initialabkürzungen und Akronyme. Es wird detailliert auf die Eigenschaften und den Gebrauch dieser verschiedenen Abkürzungstypen eingegangen und deren Entstehung und Entwicklung im Kontext der sprachlichen und wissenschaftlichen Entwicklung erläutert. Der Fokus liegt auf Akronymen als besonders prägnanter Form der Abkürzung.
Schlüsselwörter
Automatische Abkürzungserkennung, Abkürzungsauflösung, Mehrdeutigkeit, Biomedizinische Texte, Akronyme, Initialabkürzungen, Informationsextraktion, Computerlinguistik, Gen- und Proteinbezeichnungen.
Häufig gestellte Fragen (FAQ) zum Dokument: Automatische Erkennung und Auflösung von Abkürzungen
Was ist der Gegenstand dieses Dokuments?
Dieses Dokument bietet einen umfassenden Überblick über Methoden zur automatischen Erkennung und Auflösung von Abkürzungen, insbesondere im biomedizinischen Kontext. Es präsentiert verschiedene Verfahren, erläutert deren Funktionsweise und diskutiert Herausforderungen wie die Behandlung von Mehrdeutigkeiten.
Welche Arten von Abkürzungen werden behandelt?
Das Dokument unterscheidet verschiedene Arten von Abkürzungen, darunter bruchstückhafte Abkürzungen, Kontraktionen, Initialabkürzungen und Akronyme. Es wird detailliert auf die Eigenschaften und den Gebrauch dieser verschiedenen Abkürzungstypen eingegangen.
Welche Methoden zur automatischen Abkürzungserkennung werden vorgestellt?
Das Dokument beschreibt mehrere Methoden zur automatischen Abkürzungserkennung, darunter die Ansätze von Schwartz und Hearst, Taghva und Gilbreth sowie Yu, Hripcsak und Friedman. Für jede Methode werden die einzelnen Phasen und die erzielten Ergebnisse detailliert dargestellt.
Wie wird mit Mehrdeutigkeiten bei Abkürzungen umgegangen?
Ein Schwerpunkt des Dokuments liegt auf der Auflösung von Mehrdeutigkeiten bei Abkürzungen. Es werden verschiedene Methoden vorgestellt, einschließlich der Ansätze von Liu, Lussier und Friedman, sowie weitere Methoden von Pakhmov und Nenadic, Spasic und Ananiadou. Die jeweiligen Vorgehensweisen und Ergebnisse werden erläutert.
Welche Zielsetzung verfolgt das Dokument?
Das Dokument zielt darauf ab, verschiedene Methoden zur automatisierten Verarbeitung von Abkürzungen vorzustellen und zu erläutern. Ein besonderer Fokus liegt auf der Behandlung von Mehrdeutigkeiten und der Anwendung der Methoden im biomedizinischen Bereich, insbesondere bei Gen- und Proteinbezeichnungen.
Welche Schlüsselwörter charakterisieren den Inhalt?
Schlüsselwörter sind: Automatische Abkürzungserkennung, Abkürzungsauflösung, Mehrdeutigkeit, Biomedizinische Texte, Akronyme, Initialabkürzungen, Informationsextraktion, Computerlinguistik, Gen- und Proteinbezeichnungen.
Welche Kapitel umfasst das Dokument?
Das Dokument gliedert sich in folgende Kapitel: Einleitung, Abkürzungen, Automatische Erkennung von Abkürzungen, Auflösung von Mehrdeutigkeiten und Ausblick. Jedes Kapitel wird im Dokument zusammengefasst.
Für welche Zielgruppe ist das Dokument gedacht?
Das Dokument richtet sich an eine akademische Zielgruppe, die sich mit der automatischen Verarbeitung natürlicher Sprache, insbesondere im biomedizinischen Bereich, beschäftigt. Es ist für Leser mit einem Verständnis von Computerlinguistik und Informationsextraktion konzipiert.
- Quote paper
- Steffen Kuegler (Author), 2006, Abkürzungen und Akronyme - Verfahren zur automatischen Erkennung von Abkürzungen und Auflösung von Mehrdeutigkeiten in biomedizinischen Texten, Munich, GRIN Verlag, https://www.grin.com/document/55182