Rahmenwerk zur Datenaggregation (und Analyse) von Social Tagging Systemen
Year:
2009
Authors/Eds.:
Navid Nikpour, Betreuerin: Simone Braun
Type of publication:
assignment
Abstract:
Im World Wide Web ist es bisher so dass nur Medien-Ressourcen wie Dokumente, Audio- und Video oder Bilder miteinander vernetzt sind und erst durch die Interpretation der Menschen zu Informationen und Wissen verarbeitet werden. Und diese Menge an Medien-Ressourcen wachst und wachst und sorgt fur ein Informationsflut, die fur Menschen nicht mehr ubersehbar ist. Um diese steigende Informationsflut zu bewaltigen mussen wir auf Maschinen zuruckgreifen, die jedoch im Gegensatz zu Menschen die bisher vorhandenen Daten nicht zu Informationen und Wissen verarbeiten konnen.
Aus diesem Grund wird an der nachsten Version des World Wide Web gearbeitet, dem Semantischen Web. Im Semantischen Web "lernen" Maschinen Informationen (in Form annotierter Ressourcen) mit Hilfe von Ontologien zu verstehen und zu verarbeiten.
Es existieren zwei Ansatze: Der Top-Down-Ansatz legt die Ontologien vorher fest und annotiert dann die
Ressourcen. Ein sehr großer Nachteil beim Top-Down-Ansatz ist hierbei dass die "naturliche Wissensreifung" erfordert dass die Ontologien im Zuge einer Wissenreifung fortlaufend mitgeandert werden mussen. Ein weitaus größerer Aufwand entsteht bei der Anpassung der Annotationen, die ebenfalls (meist von Hand) mitgeandert mussen.
Aus den Nachteilen des Top-Down-Ansatzes enstand der Bottom-Up- oder auch "Emergent Semantics"-Ansatz, der den umgekehrten Weg geht und aus bestehenden Annotationen Ontologien herausbildet ((to) emerge, engl. für herausbilden). Die in diesem Forschungsbereich eingesetzten Algorithmen erzeugend fortlaufende neue Ontologien aus einem aktuellen Stand annotierter Ressourcen heraus. Diese annotierten Ressourcen enstanden im Zuge des Web2.0 als mit Hilfe von Wikis und Social Software aus dem Read-Web das Read-Write-Web wurde, also als die große Menge passiver, konsumierender Benutzer des World Wide Web zu Autoren und Mitgestaltern wurden. Eine der wichtigsten Social Software Applikationen sind dabei die sogenannten Social Tagging Systeme, die es ihren Benutzern ermoglichen die im Web vorhandenen Ressourcen zum einen anhand von Menschen annotierten Schlagworter zu durchsuchen und zum anderen selbst zu annotieren. Dieses einfache und verstandliche Prinzip und die große Massen an aktiven Benutzern dieser Social Tagging Systeme führte in relativ kurzer Zeit zu einem großen Datenbestand annotierter Ressourcen, auf der die "Emergent Semantics"-Algorithmen ausgefuhrt werden konnten.
Das Problem hat sich dadurch nun zu einem bereits bekannten und gelostes Problem verschoben: Dem Aggregieren und Verarbeiten von Ressourcen. Viele Forscher im Forschungsbereich "Emergent Semantics" haben bisher als Teil ihrer Arbeit einen Crawler entwickeln mussen, der fur den Forschungsbereich relevante Daten sammelt und in einer Datenbank abspeichert. Dabei entsteht eine Redundanz, denn bis auf eine Anpassung an den jeweiligen Forschungsschwerpunkt innerhalb des "Emergent Semantics" Forschungsbereiches mussten diese Crawler eine ahnliche Arbeit verrichten: Daten holen, verarbeiten und speichern.
Diese Arbeit beschreibt den Aufbau und die Implementierung eines Rahmenwerk fur ein Crawling-System, das flexibel an die relevanten Daten des Forschungsschwerpunkt angepasst werden kann. Das Crawling-System setzt dabei eine Menge parallel arbeitender Crawler ein, die mit Hilfe einer zentralen Datenbank und sogenannten Koordinierungs-Server kommunizieren und so redundantes Crawlen vermeiden. Die parallel arbeitenden Crawler wurden so konzipiert dass sie in der Cloud Computing Umgebung "Electric Cloud 2" von Amazon eingesetzt werden konnen.
publication index

