Portale zum Wissen

Gewaltige Informationsmengen sind seit einiger Zeit durch den einfachen Zugang zu Datenbanken im Internet zugreifbar. Doch Informationen sind nicht gleichzusetzen mit Wissen.

Wissen ist, was man aus den Informationen macht.

Internetportale sind ein solcher Ansatz, um einen themenorientierten Zugang zu diesen großen Datenmengen zu erleichtern.

Ein anderer, dafür aber umso spektakulärerer Ansatz ist es, Landkarten von den Themen und Inhalten anzufertigen und als graphische Portale zu Datenbanken oder anderen Informationsquellen zu nutzen.

Das Beispiel der Landkarte (mit der Cartia ThemeScape technology ( dzt.: Thomson-Reuters) erstellt), zeigt eine Anhäufung von Dokumenten mit dem Begriff "EURO" ganz in der Nähe des Begriffes "EUROPE" .

Offensichtlich handelt es sich bei diesem Beispiel um eine Dokumentenauswahl aus dem Gebiet der Währungspolitik.

Ein weiterer Lösungsansatz wird derzeit vom Austrian Research Center Seibersdorf (ARCS www.arcs.ac.at) verfolgt. Das Projekt läuft unter dem Namen: Bibliometrisches Technologiemonitoring, das Produkt dazu trägt den Namen BibTechMon. Ziel von BibTechMon ist es, große Datenmengen zu analysieren und damit "Wissen ohne zu lesen" zu ermöglichen.

Die Aussage,
"Man kann sich ein Bild davon machen" kann hier absolut wörtlich genommen werden.

Aus Recherchen zu einem Thema wird ein co-Wort Netzwerk erstellt und graphisch dargestellt. Die Begriffe sind so zueinander positioniert, daß diejenigen Begriffe nahe aneinander zu liegen kommen, die in vielen Literaturzitaten (Trefferdokumenten) gemeinsam auftreten und daher angenommen werden kann, daß diese in einem engen inhaltlichen Zusammenhang stehen.

Die Interpretation der Topologie eines co-Wort Netzwerkes läßt viele Rückschlüsse über die inhaltliche Strukturierung des abgefragten Themas zu.

...(Demo-Film zur Entstehung des Begriffsraumes, 6 Mb)

 

Wie sieht es nun mit dem praktischen Nutzen diese erstaunlichen Technologie aus?

Im EUREKA Prototyp-Projekt LIS (Legal Information System) wird versucht, eine praktische Umsetzung der am Markt befindlichen Technologien auf dem Gebiet der Volltextdatenbanken und des Information Retrieval aufzuzeigen.

Umfang des Prototypen:

Die Beispieldaten sind dem österreichischen Luftrecht entnommen. Es handelt sich also um eine Rechtstexte-Datenbank. Die Dateneinbringung (aus dem RIS, Rechtsinformationssystem des Bundes bzw. der BGBl-Datenbank der Print Media Austria (ehem. österr. Staatsdruckerei) wurde mittels moderner GML (generalized markup language) Techniken durchgeführt.

Als Datenbankplattform wird das Dokumentenmanagementsystem BASIS verwendet.

Graphiken

Die Einbindung von Graphiken in Gesetzestexte ist damit natürlich (bei neuen Dokumenten) kein Problem. Alte Gesetzestexte, die nur in Papierform vorliegen, werden mittels Scanning und anschließender OCR in die Datenbank eingebracht. Die Treffermarkierung kann in den Originaldokumenten mit einer einzigartigen Technologie erfolgen (TIFF, pdf, jpg). Als Produkt hierfür wird hier HitView der CCS AG Zürich verwendet.

Inhalte

Um eine Inhaltsanalyse mit BibTechMon durchzuführen, ist es notwendig auf (normierte) Schlagworte zuzugreifen. Hier im LIS Prototypen haben wir versucht, auf dem Volltext aufzusetzen. Um hier zu sinnvollen Aussagen zu kommen, ist es notwendig, den Textkörper zu "normalisieren". D.h. der Index (alle im Text vorkommenden Wörter) ist so zu reduzieren, daß

  • daß sämtliche Wörter (beim Indexierungsvorgang) auf ihre Grundform reduziert werden,
    das Wort Häuser wird unter Haus im Index geführt;
  • daß Komposita zerlegt werden,
    das Wort Luftfahrzeug wird zerlegt in Luft und Fahrzeug;
  • daß Umlaute aufgelöst werden;
  • daß transitive Verbindungen aufgelöst werden,
    Personen- und Frachtverkehr wird zu Personenverkehr und Frachtverkehr;
    (hieran scheitern ALLE üblichen Datenbankabfragen)
  • daß nur mehr die Wortformen indexiert werden, die für die späterer Analyse verwendet werden z.B. nur Nomen und Verben.

Erst nach dieser "Normalisierung" des Textkörpers ist eine sinnvolle Analyse mittels BibTechMon möglich. Der zusätzliche Einsatz von Thesauri zur "Intelektuellen" Recherche in der Datenbank ist ebenfalls erst nach dieser Reduzierung des Index möglich.

Einen Ausschnitt aus einem beispielhaften co-Word Netzwerk mit 60 Begriffen sehen sie hier.


Im Beispiel ist eine Konzentration auf "Antragstellung, Berechtigungen und Prüfung" erkennbar. Kein Wunder, handelt es sich hier ja um die Volltexte des österreichischen Luftrechtes.

Diese co-Wort Netzwerke lassen aber ganz andere Ideen sprießen.

Denke man nur an eine "Zeitungsdatenbank", in der die Tendenzen der letzten 2 Tage mittels co-Wort Netztwerk aufgezeigt werden kann.

Oder denke man an Forschungs- oder Patentdatenbanken. Es lassen sich Forschungstrends aufzeigen, die mit der herkömmlichen Recherche nicht faßbar wären.

Fragen zum Projekt richten Sie an:

LIS Luftfahrt Informatik Service Reinisch og

7441 Steinbach 49
Tel. 02616 4102
Fax. 02616 4103
Mail: reinisch@lis-og.com
Home: www.lis-og.com

Fragen zu weiteren Eureka Projekten richten Sie an:
BIT, Frau Michelle Killer
killer@bit.ac.at

Für Fragen zum BibTechMon wenden Sie sich direkt an:
D.I. Dr. Clemens Widhalm
Austrian Research Center Seibersdorf
clemens.widhalm@arcs.ac.at

Fragen zum ABC-MorphServer richten Sie an:
ABC System GmbH Niederlassung Österreich
Mail: reinisch@abc-system.com
Home: www.abc-system.com



Anlage: LIS-Begriffe Gesamtbild