„The ultimate search engine would basically understand everything in the world, and it would always give you the right thing. And we're a long, long ways from that.“
Dieses Zitat von Larry Page, der mit dem von ihm entwickelten Page Rank Algorithmus nicht unerheblich zur Markt dominierenden Stellung von Google als Internet-Suchmaschine beigetragen hat, zeigt, dass auf dem Gebiet der Suchmaschinen noch viel zu tun ist. Davon, dass eine Suchmaschine wie Google „alles auf der Welt versteht“ und immer die richtigen Ergebnisse auf unsere Suchanfragen zurück liefert, sind wir mit Sicherheit noch sehr weit entfernt.
Gerade wenn es darum geht, die relevanten Informationen aus der riesigen Fülle an Webseiten aus denen das World Wide Web besteht herauszufiltern, gleicht dies „der Suche nach der Nadel in einem täglich wachsenden Heuhaufen“.
Dabei stehen die Suchmaschinenbetreiber vor allem vor dem Problem, den Inhalt dieser unzähligen Webseiten richtig zu „erkennen“. Das dabei die vor allem auf „Word-Matching“ Verfahren ausgelegten Algorithmen nicht die besten Ergebnisse bringen, ist kaum verwunderlich und hat wohl jeder schon selber bei seiner Suche im Internet feststellen können. Und diese Probleme mit denen heutige Suchmaschinen zu kämpfen haben, werden nicht kleiner, sondern steigen Tag für Tag mit den neu im Web entstehenden Seiten. Um dieser Herausforderung zu begegnen, gibt es vor allem zwei verschiedene Möglichkeiten. Auf der einen Seite könnten die Betreiber von Suchmaschinen auf den massiven Einsatz von Verfahren aus dem Bereich der künstlichen Intelligenz bauen, mit deren Hilfe es vielleicht möglich wäre, aus bestimmten auf der Webseite vorhandenen Wortkombinationen oder dem Satzbau Rückschlüsse auf den Inhalt der Webseite zu ziehen. Hier wird also versuch im nachhinein die implizit im Seiteninhalt „verborgene“ Bedeutung zu ermitteln. Das nachträgliche Erschließen implizit vorhandener Informationen hat den Nachteil, dass die Last der Erkenntnisgewinnung ausschließlich auf Seite der Serviceanbieter (z.B. Suchmaschinen) liegt und das prinzipielle Problem besteht, dass sich vorhandene Daten auf sehr unterschiedliche Art und Weise interpretieren lassen. Auf der anderen Seite könnten man das Gerüst, aus dem sich die Webseiten zusammensetzen, erweitern und den Entwicklern der Webseiten auf diese Weise eine Möglichkeit an die Hand geben, selber den Inhalt ihrer Seite explizit zu beschreiben.
Inhaltsverzeichnis
1. Einleitung
2. Semantic Web
2.1 Vom World Wide Web zum Semantic Web
2.2 Semantic Web - Ebene 1 - RDF
2.3 Semantic Web - Ebene 2 - OWL
3. Semantic Web Suchmaschienen
3.1 Swoogle - Suche im semantischen Teil des Web
3.2 QuizRDF - Suche mit Hilfe des Semantic Web
4. Fazit
5. Anhang
5.1 Literaturverzeichnis
1. Einleitung
„The ultimate search engine would basically understand everything in the world, and it would always give you the right thing. And we're a long, long ways from that.“1
Dieses Zitat von Larry Page2, der mit dem von ihm entwickelten Page Rank Algorithmus nicht unerheblich zur Markt dominierenden Stellung von Google als Internet-Suchmaschine beigetragen hat, zeigt, dass auf dem Gebiet der Suchmaschinen noch viel zu tun ist. Davon, dass eine Suchmaschine wie Google „alles auf der Welt versteht“ und immer die richtigen Ergebnisse auf unsere Suchanfragen zurück liefert, sind wir mit Sicherheit noch sehr weit entfernt.
Gerade wenn es darum geht, die relevanten Informationen aus der riesigen Fülle an Webseiten aus denen das World Wide Web besteht herauszufiltern, gleicht dies „der Suche nach der Nadel in einem täglich wachsenden Heuhaufen“.3
Dabei stehen die Suchmaschinenbetreiber vor allem vor dem Problem, den Inhalt dieser unzähligen Webseiten richtig zu „erkennen“. Das dabei die vor allem auf „Word-Matching“4 Verfahren ausgelegten Algorithmen nicht die besten Ergebnisse bringen, ist kaum verwunderlich und hat wohl jeder schon selber bei seiner Suche im Internet feststellen können. Und diese Probleme mit denen heutige Suchmaschinen zu kämpfen haben, werden nicht kleiner, sondern steigen Tag für Tag mit den neu im Web entstehenden Seiten.
Um dieser Herausforderung zu begegnen, gibt es vor allem zwei verschiedene Möglichkeiten. Auf der einen Seite könnten die Betreiber von Suchmaschinen auf den massiven Einsatz von Verfahren aus dem Bereich der künstlichen Intelligenz bauen, mit deren Hilfe es vielleicht möglich wäre, aus bestimmten auf der Webseite vorhandenen Wortkombinationen oder dem Satzbau Rückschlüsse auf den Inhalt der Webseite zu ziehen. Hier wird also versuch im nachhinein die implizit im Seiteninhalt „verborgene“ Bedeutung zu ermitteln. Das nachträgliche Erschließen implizit vorhandener Informationen hat den Nachteil, dass die Last der Erkenntnisgewinnung ausschließlich auf Seite der Serviceanbieter (z.B. Suchmaschinen) liegt und das prinzipielle Problem besteht, dass sich vorhandene Daten auf sehr unterschiedliche Art und Weise interpretieren lassen. Auf der anderen Seite könnten man das Gerüst, aus dem sich die Webseiten zusammensetzen, erweitern und den Entwicklern der Webseiten auf diese Weise eine Möglichkeit an die Hand geben, selber den Inhalt ihrer Seite explizit zu beschreiben.
Genau um diesen zweiten Aspekt und seine Umsetzung in einem „Semanitc Web“ soll es in dieser Arbeit gehen. Dabei werde ich im ersten Teil der vorliegenden Arbeit, ausgehend von den Unzulänglichkeiten des bestehenden World Wide Web, die Idee und den Aufbau des Semantic Web näher beleuchten, um dann im zweiten Teil zwei Suchmaschinen vorzustellen, die zum einen beim Aufbau des Semantic Web helfen und zum anderen eine Suche auch im neuen semantischen Web ähnlich wie Google ermöglichen.
2. Semantic Web
2.1 Vom World Wide Web zum Semantic Web
Bevor man sich mit dem Konzept des Semantic Web, seinem Aufbau, seinen Vorteilen und seinen Auswirkungen beschäftigt, wird wahrscheinlich als erstes die Frage im Raum stehen, was genau denn das Problem mit dem World Wide Web der „ersten Generation“5 ist.
Wenn man das heutige auf SGML (HTML) bzw. XML (XHTML) basierende Internet betrachtet, wird man feststellen, dass es vor allem an erster Stelle repräsentationsorientiert ist.
Es geht vornehmlich darum, Informationen möglichst visuell ansprechend darzustellen, ein einfaches und übersichtliches Benutzerinterface zur Verfügung zu stellen und dadurch die Informationen leicht zugänglich und intuitiv erfassbar aufzubereiten. Dabei geht es natürlich um den Informationsfluss hin zum menschlichen Betrachter vor dem Bildschirm, der ließt, surft oder Formulare ausfällt.
Aus dieser Repräsentationsorientierung für menschliche Nutzer ergeben sich dann Probleme für die intermaschinelle Kommunikation, Such-Agenten, Informationsfilter und dergleichen. Ein menschlicher Nutzer kann aus den Texten, Bildern oder generell Inhalten einer Webseite ihr Bedeutung meist sehr einfach erfassen. Einer Maschine oder Software bleibt dieser Bedeutungsinhalt jedoch erst einmal verschlossen.
Dieses Problem des Nichterkennens der inhaltlichen Bedeutung einer Webseite ist, wie schon in der Einleitung beschrieben, eines der größten Probleme heutiger Suchmaschinen. Die Problem ergeben sich vor allem bei/aus den folgenden drei Aspekten:
- Homonyme (Wörter die gleich geschrieben werden aber mehrere Bedeutungen haben können)
Für einen menschlichen Betrachter ist es auf den ersten Blick ersichtlich, ob sich eine Webseite mit der Insel „Java“ beschäftigt oder es um die Programmierspache „Java“ geht. Eine Suchmaschine bräuchte schon weiterführende Verfahren um so eine Einschätzung geben zu können.
- Synonyme (verschiedene Wörter, die die gleiche Bedeutung haben)
Eine Suchmaschine weiß nicht zwingend, dass, wenn nach „Fahrrad“ gesucht wird, auch Webseite mit „Drahtesel“ oder „Zweirad“ interessant sein könnten.
- Priorisierung (Was ist wichtig(er)? Welche Seite ist releavant(er)?)
Woran soll eine Suchmaschine feststellen ob eine Webseite relevant für eine Suchanfrage ist? Daran, wie oft das Suchwort auf der Seite vorkommt? Anhand des Page Rank, der einfach gesagt angiebt, wie „gut“ eine Seite verlinkt ist? Das können mit Sicherheit Anhaltspunkte sein, sonst wäre die Ergebnisse heutiger Suchmaschinen viel schlechter, aber trotzdem stellen diese Anhaltspunkte nur einen Kompromiss dar.
Wörter und Begriffe, die auf einer Webseite auftauchen, müssten also im Kontext ihres Auftretens durch die Suchmaschine interpretiert werden.6
Ein Beispiel soll an dieser Stelle den oben beschriebene Sachverhalt verdeutlichen. Nehmen wir einmal an, wir möchten einem Bekannten einen iPod Mini schenken. Um nicht zuviel Geld auszugeben, möchten wir im Internet nach dem billigsten Anbieter suchen. Das scheint auf den ersten Blick keine schwere Aufgabe zu sein, eine Suche bei bekannten Hardwareversendern im Internet, ob sie den iPod Mini anbieten und wenn ja, zu welche Preis, sollte das Problem lösen. Das ist ein recht simple Aufgabe mit immer wiederkehrenden Handlungsschritten. Es liegt also nahe das ganze zu automatisieren. Als ersten Schritt könnte man vielleicht in Erwägung ziehen, eine Suchmaschine nach den Begriffen „iPod Mini“ und „Preis“ suchen zu lassen. In der Ergebnisliste werden sich dann wahrscheinlich viele Angebote zum iPod Mini finden, aber mit Sicherheit ebensoviele zu Tasche, Kopfhörer, Netzteil oder anderem Zubehör zum iPod Mini. Selbst wenn wir nur iPod Mini Angebot in der Ergebnisliste hätten, müssten wir immernoch jedes Angebot einzelnd aufrufen und nach dem Preis suchen.
Stellen wir uns nun einen Software Agenten vor, der für uns eine Preisliste zum iPod Mini erstellen soll und nehmen wir an, er weiß bereits auf welchen Seite er nach Angeboten suchen kann. Er wird also von den Anbietern (X)HTML Dokumente erhalten, auf denen irgendwo der Preis des iPod steht - so wie das WWW heute aufgebaut ist, müsste dem Agenten gesagt werden, welcher Händler in welcher Tabellenzelle den Preis stehen hat. Schlecht, wenn der Händler das ändert und Probleme wie Währung, Brutto- oder Nettopreis wurden noch gar nicht berücksichtigt.
Hier wird deutlich welche Problem eine eigentlich sehr einfach Aufgabe aufwirft, wenn keine verwertbaren Informationen über die inhaltliche Bedeutung einer Webseite vorhanden sind. Einen Teil des obigen Problems könnte man dadurch umgehen, dass man ausnutzt das XHTML auf XML basiert. Man kann sich z.B. einen Tag <preis>...</preis> vorstellen, mit dessen Hilfe unabhängig von dem visuellen Layout einer Seite feststelllen werden könnte, wo der Preis steht. Das XML hier nicht ausreicht, erkennt man, wenn man sich überlegt, dass andere Webseitenbetreiber vielleicht <angebot>, <offer> oder <price> benutzen und auch die anderen oben erwähnten Probleme lassen sich auf diesem Weg nicht so einfach beheben.7
Eine ausschließliche Bedeutungszuweisung für einzelne Teile einer Webseite ist also offensichtlich nicht ausreichend. Es ist zusätzlich nötig, Beziehungen und Zusammenhänge zwischen diesen Auszeichnungen herstellen und beschreiben zu können. Diese beiden Anforderungen erfüllt das Semantic Web und darüber hinaus hat es noch weitere Vorteile.
Für die Idee des Semantic Web zeichnet sich niemand geringeres verantwortlich als Tim Berners-Lee8, der „Erfinder“ des Hypertext basierten Internets, der zusammen mit James Hendler und Ora Lassila im Jahr 2001 in dem visionären Artikel „The Semantic Web“9 die Grundbausteine für die weitere Entwicklung legte. Aus einer zentrale Aussage lassen sich bereits die Hauptziele des Semantic Web ableiten:
„The Semantic Web is an extension of the current web in which information is
given well-defined meaning, better enabling computer and people to work in cooperation“.
„The Semantic Web is anextension of the current web“
Ein sehr wichtiger Punkt, sagt er doch aus, dass das existierende Internet nicht abgelöst und ersetzt, sondern einfach erweitert wird. Alle vorhandenen Inhalte bleiben weiter verfügbar und auch alle Anwendungen werden weiter normal arbeiten können.
„in which information is given well-defined meaning“ Der Betreiber einer Webseite reichert diese explizit mit Bedeutungsinformationen an.
„better enabling computers and people to work in cooperation“ Sowohl die intermaschinelle Kommunikation, als auch menschliche Nutzung des WWW soll verbessert werden, um dadurch ein universelles Kommunikationsmedium zu schaffen.10
Das Semantic Web hat es sich so zum Ziel gemacht alle im Web nutzbaren Ressourcen (Webseiten, Teile von Webseiten, Bezeichnung, Personen, Konzepte usw.) durch maschinenlesbare Meta-Informationen mit Aussagen zu ihrer Bedeutung zu versehen. Zusätzlich zu dieser Bedeutungsebene existiert zusätzlich die, wie oben beschrieben, benötigte zweite Ebene, um die Beziehungen zwischen den Bedeutungsauszeichnungen darzustellen. Den Aufbau der Sprachebenen des Web zeigt Abb. 111.
Im folgenden Kapitel wird es um die erste Ebene - die Bedeutungsebene gehen und damit vor allem um die Syntax des Resource Description Framework (RDF).
Abbildung in dieser Leseprobe nicht enthalten
11 Abbildung angelehnt an: Decker, Stefan u.a. (2000): The Semantic Web. On the respective Roles of XML and RDF, S. 2.
2.2 Semantic Web - Ebene 1 - RDF
Die erste Ebene des Semantic Web bildet das Resource Description Framework (RDF). Mit Hilfe des RDF können wir die Ressourcen (Webseiten, Teile von Webseiten usw.) eindeutig identifizieren und kennzeichnen. Diese eindeutige Identifizierung findet mit Hilfe eines Uniform Resource Identifier (URI) statt. Die wohl bekanntesten URIs sind die URLs (die damit eine „Unterklasse“ der URIs darstellen).
Eine URI besteht aus drei Teilen:
Abbildung in dieser Leseprobe nicht enthalten
Mit <schema> wird ein Namensraum / Gültigkeitsbereich definiert. Bei einer URL könnte dies zum Beispiel „http“ oder „ftp“ sein. Der <schema-specific-part> kennzeichnet dann einen bestimmter Teilbereich, relativ zu diesem Teilbereich kann dann mit <fragment> ein weiterer Teil gekennzeichnet werden. Unsere Webseite mit dem Angebot eines iPod Mini könnten wir also z.B. über die URI < http://www.shop.tld/offer01# > eindeutig kennzeichnen. Das Resource Descripton Framework setzt drei dieses URIs zu einem Tripel zusammen, um auf diesem Weg Ressourcen zueinander in Beziehung zu setzten. Bei diesen Tripeln handelt es sich um gerichtete Graphen (s. Abb. 2), die jeweils eine Subjekt - Prädikat - Objekt bzw. Object - Attribute - Value Beziehung darstellen. Eine gebräuchliche Schreibweise dieser RDF-URI Tripel ist:
Abbildung in dieser Leseprobe nicht enthalten12
Abbildung 2: Die drei RDF-URI Tripel als gerichtete Graphen
[...]
1 Page, Larry (2004): Interview, Business Week Magazin, http://www.businessweek.com/magazine/content/04_18/b3881010_mz001.htm .
2 Larry Page (*26.03.1973): US-Amerikanischer Informatiker und Mitbegründer von Google.
3 Vgl. Dostal, Wolfgang u.a. (2004): Semantic Web, Objektspektrum (5/2004), S. 30.
4 „Word matching“ meint hier die Schlüsselwortsuche, d.h. das gesuchte Wort wird Zeichen für Zeichen mit denen diverser HTML Seiten verglichen.
5 Es gibt auch Literatur, die das heutige Web bereits als Web der „zweiten Generation“ bezeichnet - sie unterscheidet „handwritten HTML pages“ und „machine generated and often active HTML pages“ als erste bzw. zweite Generation.
6 Vgl. Dostal, Wolfgang u.a. (2004): Semantic Web, S. 31.
7 Vgl. Mintert, Stefan (2003): Abgehoben. Das semantische Web, iX (7/2003), S. 90f.
8 Tim Berners-Lee (*8.6.1955): Studierte an der Oxford University, zur Zeit Inhaber des 3com Founders-Lehrstuhls am MIT.
9 Berners-Lee, Tim u.a. (2001): The Semantic Web, Scientific American (5/2001).
10 Vgl. Dostal, Wolfgang u.a. (2004): Semantic Web, S. 30f.
11 Abbildung angelehnt an: Decker, Stefan u.a. (2000): The Semantic Web. On the respective Roles of XML and RDF, S. 2.
12 „Literal values“ sind hier beliebige Zeichenfolgen.
- Arbeit zitieren
- Samuel Greef (Autor:in), 2005, Semantic Web - Aufbau und Suchtechnologien, München, GRIN Verlag, https://www.grin.com/document/44612
-
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen.