Ziel der vorliegenden Arbeit ist es, den besonderen Nutzen von Algorithmen zur Datenkompression, hier in erster Linie die sogenannten Zip-Algorithmen, für die Sprach- und Literaturwissenschaften aufzuzeigen.
Dazu erfolgt zunächst eine allgemeine Einführung zum Thema Datenkompression, anschließend werden verschiedene Verfahren und Algorithmen untersucht und miteinander verglichen. Im zweiten Teil werden einige linguistisch relevante Fragen vorgestellt, für deren maschinelle Lösung Zip-Verfahren interressante Möglichkeiten eröffnen. Dabei erfolgt auch eine Einführungen in die Themen der Entropielehre, des Paradigmenwechsels und der sprachlichen Redundanz. Ein besonderes Augenmerk des Verfassers liegt darauf, sowohl den mathematisch-informationstheoretischen, als auch den sprachwissenschaftlichen Aspekten des Themas in gleicher Weise gerecht zu werden.
Inhaltsverzeichnis
- Einleitung
- Datenkompression
- Vergleich ausgewählter Kompressionsverfahren
- WinZip
- Bzip
- WinRAR
- Der Ziv-Lempel-Algorithmus
- LZ77
- LZSS
- LZ78
- LZW
- Sprachwissenschaftliche Aspekte
- Entropie, Redundanz und Paradigma
- Einige Vorüberlegungen
- Maschinelle Textanalyse
- Bestimmung der relativen Entropie
- Erkennung der Sprache
- Erkennung der Autorenschaft
- Korpus-Klassifizierung
- Zusammenfassung
Zielsetzung und Themenschwerpunkte
Diese Arbeit hat das Ziel, den Nutzen von Algorithmen zur Datenkompression, insbesondere der sogenannten Zip-Algorithmen, für die Sprach- und Literaturwissenschaften aufzuzeigen. Neben einer allgemeinen Einführung in die Datenkompression werden verschiedene Verfahren und Algorithmen untersucht und verglichen. Im zweiten Teil werden linguistisch relevante Fragestellungen vorgestellt, für deren maschinelle Lösung Zip-Verfahren interessante Möglichkeiten eröffnen. Dabei werden Themen wie Entropielehre, Paradigmenwechsel und sprachliche Redundanz behandelt. Die Arbeit strebt einen ausgewogenen Fokus auf die mathematisch-informationstheoretischen sowie sprachwissenschaftlichen Aspekte des Themas an.
- Datenkompression und ihre Anwendungen
- Vergleich verschiedener Kompressionsverfahren
- Der Ziv-Lempel-Algorithmus und seine Varianten
- Sprachwissenschaftliche Aspekte der Datenkompression
- Maschinelle Textanalyse mithilfe von Zip-Verfahren
Zusammenfassung der Kapitel
- Einleitung: Diese Einleitung stellt die Zielsetzung der Arbeit vor, die den besonderen Nutzen von Zip-Algorithmen für die Sprach- und Literaturwissenschaften aufzeigt. Sie gibt einen Überblick über die Themenbereiche der Arbeit, die im Folgenden genauer betrachtet werden.
- Datenkompression: Dieses Kapitel definiert den Begriff der Datenkompression und unterscheidet zwischen verlustbehafteter und verlustfreier Kompression. Es stellt verschiedene Kompressionsverfahren wie die Huffmann-Kodierung, die arithmetische Kodierung, die Lauflängen-Kodierung und die Gruppe der Lempel-Ziv-Kodierung vor.
- Vergleich ausgewählter Kompressionsverfahren: Dieses Kapitel vergleicht die gängigen Kompressionsprogramme WinZip, Bzip und WinRAR in Bezug auf ihre Funktionsweise und ihre Anwendungsgebiete.
- Der Ziv-Lempel-Algorithmus: Dieses Kapitel erklärt die Funktionsweise des Ziv-Lempel-Algorithmus und seine verschiedenen Varianten wie LZ77, LZSS, LZ78 und LZW.
- Sprachwissenschaftliche Aspekte: Dieses Kapitel beleuchtet die Relevanz von Zip-Verfahren für die Sprachwissenschaft. Es behandelt Themen wie Entropie, Redundanz und Paradigma und untersucht die Möglichkeiten der maschinellen Textanalyse mithilfe von Zip-Verfahren, beispielsweise bei der Bestimmung der relativen Entropie, der Erkennung der Sprache und der Autorenschaft sowie bei der Korpus-Klassifizierung.
Schlüsselwörter
Datenkompression, Zip-Algorithmen, Lempel-Ziv-Kodierung, Sprachwissenschaft, Entropie, Redundanz, Paradigma, maschinelle Textanalyse, Korpus-Klassifizierung.
- Citation du texte
- Marc Seifert (Auteur), 2002, Nutzen von Zip-Verfahren für die Sprach- und Literaturwissenschaften. Möglichkeiten maschineller Analyse und Klassifizierung von Texten, Munich, GRIN Verlag, https://www.grin.com/document/8749