Die vorliegende Hausarbeit verfolgt zwei Hauptzielstellungen:
1.) Die Erstellung einer leicht verständlichen und anschaulichen Einführung in XML.
2.) Die Erarbeitung eines allgemeinen Überblicks über die auf XML basierenden CDISC-Standards sowie der Akzeptanz und Aussichten bei Unternehmen und Behörden.
• Im ersten Abschnitt werden zunächst der Bedarf, die Nutzenpotentiale und die Perspektiven der Extensible Markup Language (XML) zur technischen Realisierung von Datenstandards im allgemeinen erläutert. Dazu wird eine kurze Einführung in die Entstehung und das Codieren von Quelltexten gegeben, wobei immer wieder anschaulich mit HTML verglichen und aufgezeigt wird, was XML über HTML hinaus leistet. Bei der Anfertigung wurde besonderen Wert darauf gelegt, dass diese Einführung auch für Nicht-Informatiker leicht verständlich ist.
• Der zweite Abschnitt beschäftigt sich mit den Arbeiten, den XML-basierten Standards sowie dem aktuellen Entwicklungsstand von CDISC. Während im ersten Teil dieses Abschnittes das Konsortium selbst, dessen Arbeitsweise und dessen Lösungsmodelle genauer beschrieben werden, wird im zweiten Teil auf die Akzeptanz von CDISC bei den relevanten Stakeholdern eingegangen. Dabei werden grundsätzliche Handlungsoptionen der Pharmaunternehmen hinsichtlich CDISC ebenso thematisiert wie die Haltung der Behörden zur Einreichung elektronischer Zulassungsanträge.
Inhaltsverzeichnis
II. Abkürzungsverzeichnis
III. Abbildungsverzeichnis
1. Zielstellung der Hausarbeit
2 Einführung in XML
2.1 Hintergrund: Entstehung und Nutzen von XML
2.1.1 Wandlung des Datenaustauschs im Internet
2.1.2 Ein einführendes Beispiel-Szenario
2.1.3 Was HTML leistet
2.1.4 Was HTML nicht leistet
2.1.5 Idee und Entstehung von XML
2.1.6 Charakteristische Eigenschaften und Vorteile von XML
2.1.7 Anwendungsbereiche von XML
2.2 Codierung: Erstellung & Weiterverarbeitung von XML-Dokumenten
2.2.1 Der Aufbau von XML-Dokumenten
2.2.2 Definition von eigenen Tags in XML-DTD’s
2.2.3 Kooperation und Einbindung fremder DTD’s
2.2.4 Validierung von Daten in XML
2.2.5 Darstellung von XML-Dokumenten
2.2.6 Datenabfrage in XML-Dokumenten und Datenbanken
2.2.7 XML-Datenaustausch in Netzen
2.2.8 XML-Editoren und Publikationsumgebungen
2.3 Ausblick: Anwendungen & Verbreitung von XML im E-Business
2.3.1 Der Nutzen von Standards im Allgemeinen
2.3.2 Vision und Nutzen von XML als Standard im E-Business
2.3.3 Einflussfaktoren auf die Verbreitung von XML-Standards
2.3.4 Aussichtsreiche XML-Standardisierungsinitiativen im E-Business
3 Das Clinical Data Interchange Standards Consortium (CDISC)
3.1 Das CDISC-Projekt
3.1.1 Idee, Herausforderung und Chancen
3.1.2 Die Entstehung von CDISC und die Rolle von Konsortien
3.1.3 Aufbauorganisation und CDISC-Mitglieder
3.1.4 Die CDISC-Internetseite als Kommunikations-Portal
3.1.5 Evolution der Datenerfassung in der klinischen Forschung
3.1.6 Der Lösungsansatz und die Datenstandards von CDISC
3.1.7 Aktueller Stand der Modelle (März 2004) und Ausblick
3.2 Akzeptanz von CDISC in der Branche
3.2.1 CDISC in der Welt der Standards und Richtlinien
3.2.2 Die Rolle von CDISC bei den Behörden
3.2.3 Strategische Handlungsalternativen der Unternehmen
3.2.4 Haltung der Unternehmen zu EDC und zu CDISC
3.2.5 Strategie von CDISC zur weiteren Expansion
IV. Quellenverzeichnis
II. Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
III. Abbildungsverzeichnis
Abbildung 1.1.3-1: Beschreibung von Daten durch Tags in HTML
Abbildung 1.2.1-1: Beschreibung des Inhalts durch Tags in XML
Abbildung 1.2.1-2: Beschreibung des Layouts durch Tags in HTML
Abbildung 1.2.2-1: Definition von XML-Tags in einer DTD
Abbildung 1.2.3-1: Einbinden einer externen DTD
Abbildung 1.2.3-2: Definition von Elementen innerhalb eines XML-Dokumentes
Abbildung 1.2.3-3: Einführung von Namensräumen zur Nutzung mehrerer DTD’s
Abbildung 1.2.5-1: Die drei Komponenten eines Dokumentes
Abbildung 1.2.5-2: Transformation von XML nach HTML durch XSLT
Abbildung 1.2.7-1: Auszug aus einem XML-RPC-Quelltext
Abbildung 1.2.7-2: Auszug aus einem JAVA-Quelltext in Verbindung mit XML-RPC
Abbildung 1.2.8-1: Screenshot eines XML-Quelltextes mit eingebundener DTD in EMACS
Abbildung 1.2.8-2: Screenshot aus dem Cocoon Publishing Framework
Abbildung 1.3.2-1: Schematische Darstellung von Informations- und Warenflüssen
Abbildung 2.1.1-1: Vereinheitlichung der Schnittstellen durch CDISC-Standards
Abbildung 2.1.3-1: Organisationsstruktur und Arbeitsgruppen von CDISC
Abbildung 2.1.4-1: Screenshot der CDISC-Internetseite
Abbildung 2.1.5-1: Vom Papier zum hoch strukturierten Dokumentformat
Abbildung 2.1.6-1: Bisheriger Prozess der Datenübertragung
Abbildung 2.1.6-2: Nahtloser Datenfluss vom Patient bis zum Reviewer
Abbildung 2.1.7-1: Quelltextauszug mit Metadaten aus dem ODM
Abbildung 2.2.1-1: Wo steht CDISC in der Welt der Standards?
Abbildung 2.2.4-1: Anteil der Studien die EDC nutzen / voraussichtlich nutzen werden
Abbildung 2.2.4-2: Anteil der Sponsoren für die EDC ein Hauptstrategieinstrument ist
Abbildung 2.2.4-3: Bedeutung von Standards für einen effizienten Datenaustausch
Abbildung 2.2.4-4: Verwendung von CDISC-Standards (zum Zeitpunkt der Umfrage)
1. Zielstellung der Hausarbeit
Die vorliegende Hausarbeit verfolgt zwei Hauptzielstellungen:
1.) Die Erstellung einer leicht verständlichen und anschaulichen Einführung in XML.
2.) Die Erarbeitung eines allgemeinen Überblicks über die auf XML basierenden CDISC-Standards sowie der Akzeptanz und Aussichten bei Unternehmen und Behörden.
· Im ersten Abschnitt werden zunächst der Bedarf, die Nutzenpotentiale und die Perspektiven der Extensible Markup Language (XML) zur technischen Realisierung von Datenstandards im allgemeinen erläutert. Dazu wird eine kurze Einführung in die Entstehung und das Codieren von Quelltexten gegeben, wobei immer wieder anschaulich mit HTML verglichen und aufgezeigt wird, was XML über HTML hinaus leistet. Bei der Anfertigung wurde besonderen Wert darauf gelegt, dass diese Einführung auch für Nicht-Informatiker leicht verständlich ist.
· Der zweite Abschnitt beschäftigt sich mit den Arbeiten, den XML-basierten Standards sowie dem aktuellen Entwicklungsstand von CDISC. Während im ersten Teil dieses Abschnittes das Konsortium selbst, dessen Arbeitsweise und dessen Lösungsmodelle genauer beschrieben werden, wird im zweiten Teil auf die Akzeptanz von CDISC bei den relevanten Stakeholdern eingegangen. Dabei werden grundsätzliche Handlungsoptionen der Pharmaunternehmen hinsichtlich CDISC ebenso thematisiert wie die Haltung der Behörden zur Einreichung elektronischer Zulassungsanträge.
2 Einführung in XML
In diesem Kapitel sollen einleitend der Bedarf, der Nutzen und die Entstehung der eXtensible Markup Language, kurz XML, dargestellt werden. Den zweiten Schwerpunkt bildet die Entwicklung und Bearbeitung (Codierung) von XML-Dokumenten sowie Methoden zum Austausch und zur Präsentation der in den Dokumenten beschriebenen Daten. Im dritten Teil des Kapitels sollen schließlich der Nutzen von Standards im Allgemeinen sowie Anwendungsmöglichkeiten und Perspektiven von XML –Standards, speziell auf das E-Business bezogen, aufgezeigt werden.
Somit soll in diesem Kapitel das Grundverständnis für den Nutzen und die Beschaffenheit eines Datenstandards erarbeitet werden. Dies geschieht explizit in Hinblick auf das dritte Kapitel, für welches dieses erste Kapitel das benötigte technische Basiswissen zum besseren Verständnis eines XML-Datenstandards liefert. Es soll also keinesfalls als Tutorial für Programmierer dienen, sondern richtet sich vielmehr an eine Lesergruppe mit geringen bis überhaupt keinen Vorkenntnissen im Bereich der angewandten Informatik, wie z.B. klassisch ausgebildete Ärzte oder Wirtschaftswissenschaftler.
Unter dieser Zielsetzung kann das folgende Kapitel zur „Demystifizierung“ einer Sprache beitragen, deren Verwendung zur Zeit in weiten Kreisen bzw. Branchen unterschiedlichster Art in Erwägung gezogen wird oder bereits realisiert worden ist.
2.1 Hintergrund: Entstehung und Nutzen von XML
2.1.1 Wandlung des Datenaustauschs im Internet
Die Wurzeln des Internet reichen bis in die 60er Jahre zurück. Das World Wide Web (WWW) als einer der heutzutage wichtigsten Internetdienste entstand erst vergleichsweise spät Anfang der 90er Jahre. Bis zu diesem Zeitpunkt war das Internet noch zu unbekannt, zu teuer und zu wenig benutzerfreundlich, um den Anforderungen an ein Massenmedium, wie es das WWW heute ist, zu genügen.
Sich rasant weiterentwickelnde und somit leistungsfähigere, preisgünstigere Technologien zum einen sowie Wachstum und Kommerzialisierung des WWW zum anderen, welche sich in gegenseitiger Wechselwirkung immer weiter verstärkten, sollten bereits wenige Jahre später zu einem explosionsartigen Ansteigen der Nutzerzahlen führen.
Damit sollte sich auch die Art der Nutzung des Mediums Internet stark verändern: Anders als in seinen ersten Jahren dient das WWW heute dazu, Informationen nahezu jeden beliebigen Typs und Inhalts auszutauschen, und zwar:
- von Mensch zu Mensch,
- von Mensch zu Maschine und
- von Maschine zu Maschine [1, Wittenbrink, S.18f.].
Die ursprüngliche Konzeption der Hypertext Markup Language (HTML), als Beschreibungssprache bzw. als so genannte Auszeichnungssprache für den Quelltext (das Grundgerüst) von Internetseiten, kann diesen gewachsenen Anforderungen inzwischen nur noch teilweise gerecht werden. Neue Konzepte für erweiterbare Auszeichnungssprachen, die den Anwendungsbereich von HTML übersteigen bzw. individuell ergänzen, lassen sich als die unmittelbaren Folgen des Wandels der Internetnutzung deuten. Sie sehen eine weitaus größere Funktionalität für die Entwickler vor und werden dazu beitragen, bislang brachliegende Potentiale der Vernetzung erschließen zu können [2].
Im folgenden Abschnitt soll zunächst zum besseren Verständnis an einem praxisbezogenen Fallbeispiel veranschaulicht werden, in welcher Form HTML bei der Abwicklung des internetgestützten Datenaustausches verwendet werden kann und wo die Grenzen dieser Sprache liegen.
2.1.2 Ein einführendes Beispiel-Szenario
Eine Musterbranche für den Austausch von umfassenden und komplexen Datenmengen ist das Gesundheitswesen. Gerade hier eröffnen neue Technologien in Verbindung mit dem Internet ungeahnte Perspektiven der maschinellen Unterstützung bei den vielfältigen Kommunikationsprozessen. Im folgenden Beispiel-Szenario sollen diese Prozesse auf den Datenempfang einer Hauskrankenpflege-Einrichtung von einem Krankenhaus eingeengt werden.
Der typische Patient, der sich zur Hauskrankenpflege angemeldet hat, wird zunächst im internen EDV-System in einer umfassenden elektronischen Patientenakte registriert. Diese enthält u.a. seine Krankheitshistorie, Abrechnungsdaten und Vermerke diverser behandelnder Ärzte, Spezialisten und Versicherungsgesellschaften, Informationen über Krankenhausaufenthalte, Verabreichungen von Medikamenten, Röntgenaufnahmen sowie Daten zur Person.
Meist müssen diese Daten erst noch beschafft werden und liegen dann oft lediglich in Papierform bereit, was den aufwendigsten Teil der Dokumentationsarbeiten für das Hauskrankenpflege-Unternehmen mit sich bringt: Das manuelle Abtippen und Scannen des Materials zur Aufbereitung im eigenen EDV-System. Dabei ist ein präzises und fehlerfreies Informationsmanagement hinsichtlich der Patientendaten ein kritischer Erfolgsfaktor für Hauskrankenpflege-Einrichtungen, welche hinsichtlich Vorgaben von Gesundheitsbehörden und Krankenversicherungen strenge Auflagen zu erfüllen haben.
Was also liegt näher, als zumindest für den Transport der Daten die mittlerweile weite Verbreitung des Internets als Übertragungsmedium von bereits elektronisch gespeicherten Patientendaten zu nutzen? Die Lösung, die HTML-basierte Internetseiten hierzu anbieten, sähe in Einzelschritten folgendermaßen aus.
1.) Die Hauskrankenpflege verschafft sich einen registrierten Internetzugang zu den Patientendaten, z.B. bei einem Krankenhauses (Nutzername, Passwort).
2.) Die Hauskrankenpflege meldet sich als autorisierter Benutzer mit exakt definierten Abrufrechten im Datenmanagementsystem des Krankenhauses an.
3.) Die Hauskrankenpflege lässt sich die gewünschten Daten im Browser anzeigen.
4.) Die Hauskrankenpflege druckt die Daten aus.
5.) Die Hauskrankenpflege tippt die Daten vom Ausdruck ins eigene System ab.
Ebenfalls denkbar wäre natürlich, dass die Daten direkt vom Browser-Fenster aus in ein vorgefertigtes Eingabeformular abgetippt oder kopiert werden. Allerdings würde dadurch der Gesamtprozess nur teilweise beschleunigt bzw. Papier gespart werden. Eine echte Lösung, welche auch das aufwendige Abtippen der Patientendaten mit berücksichtigt, also das eigentliche Problem bei der Wurzel packt, sähe eher folgendermaßen aus:
1.) Die Hauskrankenpflege verschafft sich einen registrierten Zugang zu den Patientendaten z.B. eines Krankenhauses.
2.) Die Hauskrankenpflege meldet sich als autorisierter Benutzer mit definierten Abrufrechten im Datenmanagementsystem des Krankenhauses an.
3.) Die Hauskrankenpflege ruft die Daten des gewünschten Patienten ab.
4.) Das Datenmanagementsystem der Hauskrankenpflege kann die abgerufenen Daten des Krankenhauses interpretieren und überträgt sie selbständig in der festgelegten Dokumentationsform in die Patientenakte der Hauskrankenpflege.
Auf diesem Wege könnte sowohl wertvolle Arbeitszeit gespart als auch Fehlerquellen, wie sie beim Abtippen generell mit einzukalkulieren sind, von vornherein ausgeschlossen werden. Jedoch ist dieses zweite Szenario mittels Beschreibung der Daten auf HTML-Basis nicht möglich, da das Vokabular dieser Sprache zu eingeschränkt ist, um die Art der Daten sowie den Bezug, den sie zueinander haben, für den Computer als Maschine interpretierbar zu machen [3, Bosak].
2.1.3 Was HTML leistet
Zentrale Aufgabe von HTML ist es, die logischen Bestandteile eines Dokumentes zu definieren und auszuzeichnen, also Dokumente zu beschreiben. Auf diese Weise kann ein Dokument in Abschnitte bzw. Elemente aufgeteilt werden, denen ein jeweils unterschiedliches, elementspezifisches Layout zugewiesen werden kann, wie z.B. eine fett gedruckte Überschrift, ein linksbündiger Text in der Schriftart Arial, ein rechtsbündiges Bild mit Rahmen etc.
Zu diesem Zweck werden in HTML die einzelnen Dokument-Elemente mit so genannten Tags (sprich: „Täcks“) beschrieben. Diese Tags enthalten prinzipiell Daten, die Informationen über andere Daten, auch Meta-Informationen genannt, liefern. So kann z. B. die erste Zeile einer Patientenakte lauten: „Personenbezogene Angaben“. Der zugehörige Tag zu dieser ersten Zeile könnten dann lauten: „Typ=Überschrift“. Durch diese Zusatzinformation über die Daten in der ersten Dokumentzeile ist nun die verarbeitende Software in der Lage, die Art der Daten zu erkennen und diese für den menschlichen Leser des Dokumentes automatisch in einem Schriftbild darzustellen, welches sich von den folgenden Zeilen deutlich abhebt (z.B. größere Schrift, fett gedruckt) und damit impliziert, dass es sich um eine Überschrift des Textes handelt.
Die Tags markieren dabei als Markup (Hypertext Markup Language) als in eckigen Klammern geschriebener Text in HTML-Dokumenten die eigentlichen Informationen für den Leser, wie der folgende kommentierte Auszug aus einem HTML-Dokument veranschaulicht:
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1.1.3-1: Beschreibung von Daten durch Tags in HTML
Der Browser, als verarbeitende Software, wird mittels der Tag-Informationen in die Lage versetzt, selbständig die Überschrift zu erkennen, sie von dem darauf folgenden Absatz zu unterscheiden und somit beide Elemente entsprechend ihrer individuellen Layout-Festlegungen auf dem Ausgabemedium darzustellen.
Zusammenfassend sei gesagt, dass HTML es einer verarbeitenden Software zwar ermöglicht, zwischen den Bestandteilen eines Dokumentes zu differenzieren, dieses aber vorwiegend zur Unterscheidung von abschnittsspezifischem Layout geschieht. Tags mit Informationen über die einzelnen Textelemente selbst, wie etwa für Name und Anschrift im oberen Quelltextauszug, sind in HTML nicht definiert. Zweck der Markup-Sprache ist vielmehr die Bereitstellung eines Tag-Vokabulars zur übersichtlichen, leserfreundlichen und individuellen Darstellung von Internetseiten im Browser.
2.1.4 Was HTML nicht leistet
HTML als Auszeichnungssprache zur Beschreibung von einzelnen Dokumentelementen stößt schnell an seine Grenzen bei der maschinellen Unterstützung hinsichtlich Verwaltung, Verarbeitung und Übertragung größerer, komplexerer Datenmengen. Diese bestehen im Wesentlichen in den folgenden drei Problempunkten:
- Erweiterbarkeit: HTML bietet dem Entwickler nicht die Möglichkeit, sein Tag-Vokabular für eigene Bedürfnisse und Anforderungen anzupassen oder gar zu erweitern. Inhaltsspezifische Dokumentelemente (z.B. die Adresse im obigen Quelltextauszug) sind somit nicht individuell definierbar und können deshalb auch nicht von der verarbeitenden Software automatisch weiterverarbeitet werden.
- Strukturierung: HTML unterstützt nicht die Spezifizierung von individuellen, fixen Strukturen, wie sie beispielsweise benötigt werden, um den Aufbau von Datenbanken (Tabellen-, Spaltenstrukturen, Schlüssel) hierarchisch in einzelnen Textdokumenten abzubilden.
- Validierung: HTML verfügt über kein spezielles Tag-Vokabular oder eigene Validierungsmechanismen, die es anderen Anwendungen ermöglichen würden, beim Import die Daten auf strukturelle Korrektheit und Vollständigkeit zu überprüfen. Somit kann nur nachträglich, auf manuellem Wege, sichergestellt werden, dass bei der Datenübertragung von einem System, bzw. einer Anwendung in die andere, alle Daten unverfälscht empfangen worden sind [3, Bosak].
Vor allem aufgrund dieser Mängel an Erweiterbarkeits-, Strukturierungs-, und Validierungsmöglichkeiten stellt HTML als Auszeichnungssprache keine befriedigende Lösung für den maschinell gestützten Austausch sowie die anschließende Verarbeitung komplexerer Datenmengen innerhalb eines Dokumentes dar.
2.1.5 Idee und Entstehung von XML
Im Februar des Jahres 1998 verabschiedete das World Wide Web Consortium (W3C) die eXtensible Markup Language (XML) als einheitlich spezifizierten Standard in der Version 1.0. Ziel war es, einen einfach zu implementierenden Standard zur logischen Dokumentauszeichnung bereitzustellen, dessen Funktionalität weit über den Umfang von HTML hinausgeht [1, Wittenbrink, S.16].
XML gehört wie HTML zur Familie der Markup-Languages. Beide entstanden auf Basis der Standard Generalized Markup Language (SGML) und bilden jeweils Teilmengen dieser Auszeichnungssprache. Die „Geburt“ von SGML geht ins Jahr 1974 zurück. Im Jahr 1986 wurde sie als offizieller Standard ISO 8879 umgesetzt. Zweck von SGML ist es u.a., Vorschriften und Regeln bereitzustellen, um Auszeichnungssprachen formal definieren zu können.
Problematisch war und ist die Komplexität von SGML, welche die Entwicklung und Nutzung von SGML-Programmen nicht nur kompliziert, sondern vor allem auch unnötig kostenintensiv macht. Dies hat bis heute Akzeptanz und Verbreitung von SGML negativ beeinflusst – ganz im Gegensatz zur großen Popularität ihrer Tochtersprachen.
Während also SGML auf der einen Seite sich wegen seiner hohen Komplexität nur als begrenzt einsetzbar erwiesen hat, ist HTML auf der anderen Seite aufgrund der fehlenden Erweiterbarkeit für komplexere Anwendungen ungeeignet. Und genau hier setzt das Konzept von XML an:
Das „X“ in XML steht für „extensible“, was übersetzt „erweiterbar“ bedeutet und sich u.a. auf das Markup dieser Sprache, also auf die Tags bezieht. Diese können den eigenen Anforderungen entsprechend definiert und angepasst werden, um Dokumentelemente exakt und inhaltsspezifisch beschreiben zu können.
XML bietet somit wesentlich weitreichendere Möglichkeiten hinsichtlich Vokabular und Funktionen als HTML. Um aber gleichfalls des höheren Komplexitätsgrades Herr zu werden, wurden alle für das Internet als überflüssig angesehenen SGML-Eigenschaften sowie eine Vielzahl zu selten genutzter und als zu kompliziert erachteter Features nicht in XML übernommen. Schon der ausgedruckte Umfang der formalen Definition von XML, welcher auf nur 33 Seiten Platz findet, bildet einen klaren Kontrast zur Anwenderfreundlichkeit der SGML-Definition von mehr als 500 Seiten. Der XML-Standard wird kontinuierlich weiterentwickelt; die jeweilige aktuelle, offizielle Spezifikation findet sich auf den Seiten des W3C unter http://www.w3c.org/XML/.
2.1.6 Charakteristische Eigenschaften und Vorteile von XML
Ein universelles, neutrales, weithin akzeptiertes und verwendetes Format, um Daten für die unterschiedlichsten Anwendungen allgemeinverständlich zu beschreiben, hatte es bisher noch nicht gegeben. XML konnte sich inzwischen zumindest in einigen Bereichen als ein solches Format durchsetzen und bringt sehr gute Voraussetzungen für einen zukünftigen, universell verwendeten Datenauszeichnungsstandard mit. In Aussicht stellen dies seine folgenden charakteristische Eigenschaften [4, Hintermeier]:
- XML ist frei verfügbar und unabhängig von proprietären Hersteller-Standards.
- XML ist plattformunabhängig, d.h. die Dokumente können auf unterschiedlichen Geräten z.B. auf PC, Handy, Kühlschrank, Fertigungsanlage etc. eingesetzt werden.
- XML ist unabhängig vom verwendeten Betriebssystem, so spielt es keine Rolle, ob z.B. Windows, Linux, UNIX etc. installiert ist.
- XML ermöglicht somit Interoperabilität, d.h. sowohl system- und plattformunabhängige als auch übergreifende Zusammenarbeit mehrerer vernetzter Teilnehmer mit unterschiedlichen Hard- und Software-Voraussetzungen.
- XML trennt strikt zwischen Speicherung und Verarbeitung der Daten, damit bleibt offen, welche Software zur Verarbeitung der Daten verwendet werden soll.
- Standardwerkzeuge zur Bearbeitung bzw. Weiterverarbeitung und Validierung von XML-Dokumenten sowie umfassende Tutorials sind frei erhältlich.
- XML-Dokumente sind sowohl für Maschinen als auch für Menschen lesbar und verständlich, was erhebliche Vorteile bei ihrer Entwicklung und Pflege bietet [1, Wittenbrink, S.17ff.]
Der Aufbau von XML-Dokumenten sowie Datenaustausch und Datenausgabe auf XML-Basis sollen in den Unterkapiteln 1.2 und 1.3 noch ausführlicher dargestellt werden. Vorher sei im anschließenden Abschnitt ein Überblick über die Haupteinsatzbereiche gegeben, für die XML konzipiert worden ist.
2.1.7 Anwendungsbereiche von XML
XML wurde als ein Format entwickelt, mit dem sich hochstrukturierte Inhalte austauschen lassen. Hieraus ergeben sich vielfältige Anwendungsmöglichkeiten, die sich im Wesentlichen einem der drei Kernbereiche zuordnen lassen, welche im Folgenden näher beschrieben werden sollen:
1.) Publishing von Dokumenten
2.) Management von Dokumenten
3.) Web-Services
Unter Publishing versteht man die Aufbereitung von in Dokumenten enthaltenen Informationen für menschliche Empfänger. XML ermöglicht hier:
- die angepasste Darstellung der Informationen auf verschiedenen Ausgabemedien, wie z.B. Monitoren und Druckern, aber auch Mobiltelefonen, Geräte-Displays, und akustischen Medien - kurzum auf jeglichen vernetzungsfähigen Endgeräten mit Wiedergabemöglichkeit;
- die Darstellung und Gestaltung von komplexen Graphiken, wie etwa mathematische Formeln, Vektorgraphiken oder auch EKG-Ergebnisse, welche im Quelltext nach bestimmten Konventionen beschrieben werden und aus dem dann die graphischen Konstrukte generiert bzw. weiterverarbeitet werden können.
Beim Management von Dokumenten wird XML verwendet, um Inhalte unabhängig von ihrer Präsentationsform zu strukturieren, zu editieren und zu verwalten. In der Praxis sind dies meist Inhalte, die sehr speziellen Anforderungen genügen müssen. Beispiele hierfür sind:
- FAQ’s (Frequently Asked Questions = Häufig gestellte Fragen), wie sie sich auf Support-Internetseiten von Unternehmen mit einer breiten Palette an Service-intensiven Produkten finden;
- Inhalte von ganzen Büchern oder komplexen technischen Dokumentationen, die gewöhnlich stets dieselbe Grundstruktur besitzen;
- Inhalte (bzw. Wissen) innerhalb von Content-Management-Systemen, aus denen je nach Bedarf Dokumente für die Präsentation generiert werden können;
- Umfangreiche Datenmengen, welche häufig sowie zwischen einer Vielzahl von Beteiligten ausgetauscht und individuell aufbereitet werden müssen (wie es etwa im Gesundheitswesen der Fall ist).
Web-Services werden mittels XML entwickelt, um die Kommunikation zwischen prozessorgestützten, vernetzten Systemen zu realisieren. Sie umfassen die Festlegung von Austauschformaten und Botschaftstypen auf XML-Basis, welche beispielsweise die gesicherte Verständigung zwischen PCs an prinzipiell jedem Ort der Welt ermöglichen. In diesen Formaten ist u.a. festgelegt,
- welche Dienste ein potentieller Sender anbietet und
- auf welche Weise diese Dienste abgerufen werden können.
Hierbei kommunizieren die beteiligten Systeme weiterhin innerhalb des XML-Sprachraums, die Programmierer brauchen also nicht in eine andere Sprache überwechseln, um den Austausch realisieren zu können - was Zeit - und Kostenvorteile bei der Entwicklung mit sich bringt.
Darüber hinaus erlaubt XML im Rahmen von Web-Services den verschiedenen Kommunikations-partnern, definierte Schnittstellen mit Validierungsmechanismen zu vereinbaren. Über diese können dann Anwendungsprogramme, die intern ganz unterschiedlich funktionieren und die evtl. auf grundsätzlich verschiedenen Betriebssystemen aufsetzen, Informationen miteinander austauschen, wobei selbige gleichzeitig auf Korrektheit und Vollständigkeit überprüft (= validiert) werden [1, Wittenbrink, S.20ff.].
So können sich z.B. zwei Pharma-Forschungseinrichtungen, die kooperieren und auf digitalem Wege ihre Daten austauschen wollen, unabhängig von ihrer - oftmals schon intern heterogenen - EDV-Landschaft vorab auf Schnittstellen einigen, welche mittels XML spezifiziert werden und über die dann zuverlässig Informationen ausgetauscht werden können. Dabei kann der gewöhnlicher Weise erhebliche Zeitaufwand, der für die Konvertierung und Überprüfung der Daten anfällt (siehe Beispiel in Kap. 1.1.2), stark reduziert werden.
Da sich das Problem heterogener, inkompatibler EDV-Landschaften immer wieder von neuem stellt, wenn zwei unterschiedliche Systeme zusammenarbeiten müssen, sollte es im Interesse aller Beteiligten liegen, sich auf ein universelles Austauschformat zu einigen, welches dann auch von allen Partnern auch konsequent unterstützt wird und den Anpassungsaufwand minimiert.
Dies kann branchenspezifisch – aber auch branchenübergreifend geschehen. Der Wert eines solchen Austauschformates steigt in jedem Fall mit der Zahl der beteiligten Partner. Proprietäre, kostenpflichtige Formate, sind allgemein hin nicht universell akzeptiert und einsetzbar. Langfristig gesehen sind sie unter diesem Aspekt zwangsläufig einem offenen, weiter verbreiteten Standard unterlegen.
XML, oder genauer gesagt der Bereich der Web-Services, bietet die technische Basis für solch einen universellen Standard und stellt damit die Vision einer weltweit einheitlichen Infrastruktur zur gesicherten Kommunikation und Transaktion bei der Abwicklung von Geschäfts- und Informationsaustauschprozessen in Aussicht[1, Wittenbrink, S.593].
2.2 Codierung: Erstellung & Weiterverarbeitung von XML-Dokumenten
2.2.1 Der Aufbau von XML-Dokumenten
Wie HTML bedient sich auch XML des Tag-Konzeptes zur Beschreibung von Dokumentelementen. Während in HTML die Tags jedoch verwendet werden, um Abschnitte zu definieren, denen ein bestimmtes Layout zugewiesen werden soll, dienen sie in XML vordergründig der Beschreibung des Inhaltes selbst. Dementsprechend könnte in XML der Beispielquelltext im Vergleich zu dem HTML-Auszug aus Kapitel 1.1.3. folgendermaßen aussehen:
XML
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1.2.1-1: Beschreibung des Inhalts durch Tags in XML
HTML
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1.2.1-2: Beschreibung des Layouts durch Tags in HTML
Obwohl beide Beispiele rein inhaltlich gesehen für den menschlichen Leser dieselben Informationen enthalten (nämlich dass es sich um eine Patientenakte des Patienten Schmidt handelt, dessen Anschrift in dieser Akte notiert ist), weist der XML-Quelltext eine ganze Reihe signifikanter Unterschiede zu seinem HTML-Pendant auf:
- Charakteristisch für XML-Dokumente ist ihre hierarchische Struktur. So ist im oberen Beispiel der Tag „Patientenakte“ definiert worden. Zwischen Start- und End-Tag „<Patientenakte>...</Patientenakte>“ wiederum befindet sich Start- und End-Tags von „<Adresse>“, welche ihrerseits die Tags zu <Strasse>, <Wohnort> und <Telefon> einschließen.
- Auf diese Weise werden jedoch nicht nur die Hierarchiestufen der Daten beschrieben, vielmehr werden letztere auch noch zueinander in Beziehungen gesetzt. Was dem menschlichen Leser unbewusst schon von vornherein klar ist, kann nun auch vom Computer bzw. einer Maschine „erkannt“ werden. In XML ist <Patientenakte> das Elternelement von <Adresse> und <Untersuchung>. Diese beiden wiederum sind Geschwisterelemente, denn sie stehen im Dokument hierarchisch gesehen auf der gleichen Stufe bzw. besitzen dasselbe Elternelement. Die Elemente <Strasse>, <Wohnort> und <Telefon> sind demnach Kinderelemente von <Adresse>, welches sich bezogen auf seine drei Kinderelemente wiederum als Elternelement verhält. Diese Art der Beschreibung mag für den menschlichen Leser auf den ersten Blick etwas verwirrend klingen – ist aber für die Maschine eine exakt formulierte und damit verständliche Methode zur Definition von Beziehungen.
- Weiterhin dienen die Tags der Beschreibung des Inhalts von Datenelementen. Somit werden die Daten als maschinell interpretierbare Informationen ausgezeichnet. Man spricht hier auch von sich selbst beschreibenden Dokumenten. Beispielsweise könnte im obigen XML-Beispiel - gegenüber dem HTML-Quelltext - gezielt die Adresse oder aber auch lediglich die Strasse des Patienten „Müller“ maschinell abgefragt werden. Angaben zum Layout werden nicht gemacht. Die Darstellung von Informationen aus XML-Dokumenten soll in Kapitel 1.2.3 noch aufgezeigt werden.
Abgespeichert werden XML-Dokumente als Dateien mit der Endung „.xml“. Zusammenfassend gesagt ermöglichen sie das strukturierte Speichern von Daten im Textformat, wobei in ihnen sowohl die Daten selbst, als auch die Beziehung in der sie zueinander stehen hierarchisch beschrieben werden. XML stellt damit ein Format zur Verfügung, Informationen, die dem menschlichen Leser offensichtlich erscheinen mögen, auch für maschinelle Rezipienten interpretierbar zu machen.
Die großen Stärken dieser Methodik, kommen im obigen, simpel gewählten Beispiel sicherlich noch nicht zum Tragen. Der Mehraufwand, der betrieben werden muss, um die Daten maschinell weiterverarbeitbar zu beschreiben, zahlt sich jedoch gerade dann umso stärker aus, wenn Datenmengen so groß und komplex werden, dass sie für den Menschen unüberschaubar sind. Der Datenaustausch zwischen Gesundheitseinrichtungen, wie er im vorigen Kapitel beschrieben wurde, ist dabei nur eine von vielen möglichen Anwendungen, bei denen sich eine XML-gestützte Lösung anbietet.
2.2.2 Definition von eigenen Tags in XML-DTD’s
Jedes XML-Dokument besteht aus Inhalt und Tags, welche den Inhalt beschreiben. Während HTML bereits ein Tag-Set zur Beschreibung von HTML-Dokumenten zur Verfügung stellt bzw. vorschreibt, muss in XML zunächst jeder Tag zur Beschreibung eines Dokumentelements selbst definiert werden. Dies kann mittels der Dokument-Typ-Definition (DTD) geschehen.
In ihr wird zum einen festgelegt, wie die Dokumentelemente (bzw. Tags) heißen sollen, zum anderen, welche möglichen Kinderelemente sie haben können bzw. müssen, ob ggf. deren Anzahl beschränkt sein soll, ob es nur eine begrenzte, definierte Menge von möglichen Werten für die Elemente geben soll etc. Veranschaulichen soll dies der Quelltextauszug aus einer denkbaren DTD für das XML-Beispiel aus dem vorhergehenden Abschnitt:
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1.2.2-1: Definition von XML-Tags in einer DTD
In der ersten Zeile des DTD-Auszugs wird das Elternelement Patientenakte definiert. In den Klammern dahinter werden die Kinderelemente Adresse und Untersuchung notiert, die zu dem Elternelement gehören. Das Sternchen-Zeichen hinter Untersuchung bedeutet, dass Untersuchung keinmal, einmal oder mehrmals innerhalb des Elementes Patientenakte in einem XML-Dokument vorkommen kann – je nachdem, ob es für den Patienten bereits eine oder mehrere Untersuchungen geben hat oder eben noch überhaupt keine.
In der zweiten Zeile wird das Attribut Name für das Element Patientenakte definiert. Im XML-Dokument soll dieses dann den Namen des Patienten erhalten und somit identifizieren, um wessen Patientenakte es sich handelt. Denkbar wäre auch ein XML-Dokument mit dem hierarchisch noch höher angesiedelten Elternelement „Patientenaktensammlung“ und dessen Kinderelementen Patientenakte, die sich jeweils durch den Patientennamen als Attribut voneinander unterscheiden lassen.
Entsprechend der Deklaration in Zeile 1 werden in der dritten Zeile weitere Kinderelemente für das Element Adresse definiert. Das Plus-Zeichen hinter Telefon bedeutet in diesem Zusammenhang, dass eine oder mehrere Telefonnummern möglich sind, schreibt jedoch vor, dass mindestens eine Telefonnummer eingetragen werden muss.
[...]
- Quote paper
- Max Dahms (Author), 2004, Einführung in XML, EDC und CDISC, Munich, GRIN Verlag, https://www.grin.com/document/43486
-
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X.