Thesaurus-Unterstützung für Informationssysteme

Claus-Peter Rückemann
06. Jan. 2003


Kurzfassung:

Thesauri haben in verschiedenen Bereichen eine langjährige Tradition. Der Einsatz mit Informationssystemen und speziell Suchmaschinen im Internet ist jedoch noch nicht weitergehend erforscht. Dieser Beitrag stellt die wichtigsten Randbedingungen, Anforderungen und Ergebnisse zum Stand der aktuellen Untersuchungen insbesondere aus Sicht der Informationssysteme dar.


Inhalt

 

Ziel

Der Einsatz von Thesauri mit Informationssystemen, die auf sehr heterogene und unmoderierte Inhalte wie im Internet zugreifen, stellt hohe Anforderungen, sowohl an die Struktur und Inhalte der Thesauri, als auch an die benötigten Algorithmen, um einen sinnvollen Einsatz für den Nutzer der Informationssysteme zu ermöglichen.

Dieser Beitrag beschreibt nach dem aktuellen Stand der Untersuchungen wichtige Ergebnisse und Anforderungen. Betrachtungen zur Wirtschaftlichkeit wurden nicht durchgeführt.

Inhalte und Struktur der Thesauri

Für Anwendungen mit umfassenderen Informationssystemen sind folgende Randbedingungen der Inhalte von besonderer Bedeutung:

Für breit angelegte Inhalte sind umfangreiche und allgemein relevante Kategorien von besonderer Bedeutung.

Gegebenenfalls kann eine grobe Strukturierung in eine Anzahl separater Thesauri von Nutzen sein. Dies kann den praktischen Einsatz hinsichtlich Prioritäten und Skalierbarkeit erleichtern. Dabei spielt jedoch die Möglichkeit einer flexiblen Kopplung der Thesauri untereinander eine besondere Rolle.

In jedem Fall ist für den anspruchsvollen Einsatz mit vielen Rechenoperationen die Antwortzeit einfacher und komplexer Abfragen, sowohl für den Betreiber auf der Seite des Informationssystems, wie auch für den Betreiber auf der Thesaurus-Seite wichtig.

Limiten

Wünschenswert ist in vielen Fällen eine automatische Verwendung der mit den verfügbaren Verfahren ermittelten Begriffe.

Die Ermittlung eines ,,optimalen`` Vorschlags ist nicht generell denkbar. In praktisch allen Fällen genügen die Randbedingungen, die durch eine einfache Suche z.B. mit einer Suchmaschine vorgegeben sind, nicht zur Auswahl eines oder einiger weniger Vorschläge.

Bei vielen Abfragen ist ein hoher Aktualitätsbezug wünschenswert, beispielsweise bei Tagesmeldungen, Wetter usw.

Dies stellt hohe Anforderungen an die Pflege der Thesauri.

Ein weitreichender Einsatz wird gerade in diesen Bereichen immer auch einen Anteil an manuellem Aufwand beinhalten.

Das Optimum muß daher darin bestehen eine möglichst effiziente Näherung an den ,,automatischen`` oder ,,aktuellsten`` Zustand zu erreichen.

Verfahren ohne Thesauri

Kategorien-Lexikon

Im Rahmen der Untersuchungen zu Informationssystemen wurde unter anderem ein einfaches Kategorien-Lexikon [1] aufgebaut und eine Software zur Errechnung von Suchvorschlägen für Informationssysteme, und deren Verwendung speziell mit Suchmaschinen, entwickelt.

Phonetischer Komparator

In einem weitergehenden Projekt wurde ein phonetischer Komparator [2] konzipiert und entwickelt, der für die Nutzung des Kategorien-Lexikons bestimmte Toleranzen ermöglicht. Diese Toleranzen beziehen sich auf phonetische Ähnlichkeiten in Kombination mit verschiedenen Filtern.

Weitere Verfahren

Es gibt mehrere einfache Möglichkeiten Abfragebegriffe zu prüfen oder Beziehungen zu möglicherweise verwandten Begriffen herzustellen.

Beispielsweise können Synonyme anhand einer Synonymliste ermittelt werden.

Eine andere Möglichkeit ist, verwandte oder assoziierte Begriffe durch Häufigkeitsanalysen in Listen oder in Datenmaterial im oder aus dem Netz zu ermitteln.

Einsatz von Thesauri mit Informationssystemen

Vorteile

Gerade in Fällen der Erschließung eines Themengebietes können Thesauri aufgrund ihrer besonderen Eigenschaften und den über sie verfügbaren Relationen ein unersetzbares Hilfsmittel für die Erhöhung der Präzision möglicher Suchabfragen darstellen.

Probleme

Als spezifisch für den angestrebten Einsatz können folgende Probleme angesehen werden.

Präzisierung:
Eine Präzisierung von Begriffen führt in vielen Fällen nicht zum Ziel, da gegebenenfalls mit spezielleren Begriffen, z.B. Unterbegriffen, noch weniger brauchbare Ergebnisse in einem gleichbleibendem Datenbestand zu finden sind, wie mit allgemeineren Begriffen. Dies trifft insbesondere auf Daten im Internet zu.

Beispiel: Lassen sich zum Begriff Grundmoräne keine oder keine brauchbaren Treffer finden, dann wird die speziellere Suche nach Grundmoränenmaterial im allgemeinen keine größere Anzahl von Ergebnissen liefert.

Was in der Regel hier als Vorteil anzusehen ist, nämlich daß die zugeordneten Begriffe einem Thesaurus entstammen, hat aber in einzelnen Fällen auch solche ,,Ausnahmen``, die dieses Verhalten verstärken können. Denn sind die Begriffe nicht dem Datenbestand des zugehörigen Informationssystems entnommen, also z.B. dem Internet, kann es trotz perfekter Zuordnung dazu kommen daß sogar keine Treffer gefunden werden.

Verallgemeinerung:
Nicht in allen Fällen kann z.B. ein Oberbegriff die Anzahl an brauchbaren Ergebnissen erhöhen. Ebenso ist es dadurch auch nicht immer möglich aus einem gleichbleibenden Datenbestand auf diese Weise Ergebnisse mit allgemeinerem Inhalt zu erhalten.

Beispiel: Für den Begriff Zeitung wäre der Oberbegriff Pressegattung fachlich perfekt. Bei der Verwendung dieses Oberbegriffs, z.B. mit Suchmaschinen im Internet, wird die überwiegende Zahl von Nutzern jedoch keine für sie interessanten Ergebnisse erzielen.

Bei den meisten Suchvorgängen, die über Suchmaschinen getätigt werden, geht es primär um ,,Finden`` und erst sekundär um ,,Wissen``.

Umfang:
Der Umfang der meisten Thesauri ist weniger durch die absolute Anzahl an erfaßten Zusammenhängen, sondern, gerade hinsichtlich eines breiteren Einsatzes, durch eine ungleiche Verteilung auf bestimmte Themengebiete begrenzt.

Aktualitätsbezug
Viele Begriffe und Zusammenhänge sind neu oder spezifisch für ein bestimmtes Medium und können daher nie ganz erfaßt sein. Der Anteil derartiger Abfragebegriffe ist insbesondere im Internet sehr hoch.

Benutzerschnittstelle:
Für die meisten Anwendungsgebiete ist mindestens eine Benutzerschnittstelle notwendig. Diese ergonomisch und entwicklungstechnisch flexibel zu gestalten ist sehr aufwendig.

Beispiele für Problemfälle im Vergleich

Geringe Unterschiede in Zeichenketten

Folgende Begriffe unterscheiden sich jeweils nur in einem Buchstaben oder durch einen Buchstabendreher voneinander, beziehen sich aber auf unterschiedliche Themengebiete.

a) Konvektion Konvention
b) Erdinnerns Erinnern
c) Gesteck Besteck
d) Moorleiche Mooreiche
e) Polit Pilot

Häufigkeitsanalysen:
Ein Algorithmus, der in allgemeinem, breit gefächertem Datenmaterial Häufigkeitsanalysen macht, würde bei a) wahrscheinlich Konvention mit höherer Priorität als Konvektion ermitteln.

Fehlerkorrektur:
Ein Algorithmus, der Abweichungen in einzelnen Buchstaben oder auch Buchstabendreher als Tippfehler in Betracht zieht, könnte bei b) als Korrektur von Erdinnerns dann Erinnerns als Korrektur vorschlagen, wenn ersteres nicht in seinem Wortbestand oder nur nicht mit höherer Häufung in seinem Wortbestand vorkommt. Bei e) Polit könnte er Pilot als Korrektur ansehen.

Dies zeigt, daß es wichtig sein kann, mehrere oder alle Abfragebegriffe eines Suchvorgangs auszuwerten, denn nur so kann mit höherer Wahrscheinlichkeit das richtige Themengebiet gefunden werden.

Ein Hilfsmittel, eine Unterscheidung zu erzielen, kann z.B. die Verwendung phonetischer Kodes sein.

Phonetische Kodes:
Folgende Tabelle gibt die phonetischen Kodes für die obigen Begriffe nach einem konventionellen Verfahren (Soundex) an, hier nicht einer spezifischen Anwendung angepaßt.

a) Konvektion K512 Konvention K515
b) Erdinnerns E635 Erinnern E656
c) Gesteck G232 Besteck B232
d) Moorleiche M642 Mooreiche M620
e) Polit P430 Pilot P430

Bei diesen einfachen Beispielen lassen sich beispielsweise zwei Gruppen von Begriffen bilden, die mit Unterschieden im phonetischen Kode und die mit gleichen Kodes.

Eine Anwendung - ohne weitere Modifikation und ohne weitere Auswertung der Kodes - auf die Fehlerkorrektur würde daher nur noch die Begriffe Polit und Pilot als mögliche Korrektur durchlassen.

Wie leicht ersichtlich ist, kann die Kombination der verfügbaren Verfahren sehr schnell komplex werden. Auch mit einer Auswertung aller Abfragebegriffe und der Kombination möglicher Verfahren stößt man schnell an Grenzen.

Gut gepflegte Thesauri können hinsichtlich der inhaltlichen bzw. thematischen Vorschläge deutlich mehr leisten. Eine Fehlerkorrektur oder ein ,,Raten`` der möglichen Schreibweise ist mit ihnen allein hingegen nicht implizit möglich.

Internationale Begriffe oder Fachbegriffe

Ein anderes Problem ergibt sich z.B. bei Fachbegriffen. Für folgende Beispielbegriffe (linke Seite) sind oft die englischsprachigen Begriffe (rechte Seite) häufiger in internationalen Veröffentlichungen zu finden, obwohl im deutschsprachigen Raum die Begriffe auf der linken Seite sicherlich mit Vorrang verwendet werden.

1) Wellengleichungsmigration Wave Equation Migration
2) Median-Stapelung Median Stack
3) Stützstelle Sample

Eine Methode, die über die Möglichkeit verfügt, auch Sprachgrenzen für solche Abfragen zu überbrücken basiert im einfachsten Fall aus einem Wörterbuch bzw. einem mehrsprachigen Verzeichnis von Ausdrücken und Formulierungen. Für anspruchsvolle Aufgaben kann die Erstellung jedoch sehr aufwendig sein.

Fachzusammenhänge

Fachzusammenhänge sind im allgemeinen nicht durch Häufigkeitsanalysen, Kategorien-Lexika, phonetische Methoden oder gar Fehlerkorrektur herzustellen.

Hier helfen auch keine Wörterbücher oder Verzeichnisse von Ausdrücken. Die Komplexität der Relationen erlaubt hier keine einfache Abbildung.

Gehen Begriffszusammenänge über eine konventionelle Übersetzung hinaus, so können gegebenenfalls fachbezogene Thesauri hilfreich sein.

Beispiel:

El Niño / Kelvin-Welle / Flipflop-Effekt / Walker-Zellen / Darwin-Tahiti-Austauschsystem

Der Zusammenhang zwischen ,,El Niño`` und ,,Kelvin-Welle`` wird durch keines der oben genannten Verfahren aufgelöst. Ebenso verhält es sich mit den weiteren Begriffen in dieser Begriffsfolge, obwohl sie in direktem Bezug zu dem wohl allgemein geläufigen Begriff ,,El Niño`` stehen.

Wie leicht ersichtlich ist, wird für den Aufbau entsprechender, fachbezogener Teile eines Thesaurus Expertenwissen benötigt.

Nicht für jeden Einsatz mit einem Informationssystem ist die Ausarbeitung eines jeden Fachthemas notwendig, aber von besonderer Bedeutung ist die grundlegende Möglichkeit solche Fachzusammenhänge abbilden zu können.

Gleiche und identische Begriffe/Zeichenketten in verschiedenen Sprachen/Zusammenhängen

Nicht selten kommen gleiche Begriffe und noch allgemeiner ,,identische Zeichenketten`` in völlig unterschiedlichen Zusammenhängen vor.

Beispielsweise Tag im Deutschen und Tag (Kennzeichen, Marke, Anhänger) im Englischen.

Selbst wenn sich ein Begriff mit hinreichender Wahrscheinlichkeit übersetzen läßt, ist der Zusammenhang noch alles andere als sicher.

Beispiel: Busch (Deutsch) <-> Bush (Englisch).

Mögliche Zusammenhänge: Wilhelm (Busch), Buschwerk/Strauch/Staude, George (Bush) ...

Sind von dem Nutzer eines Informationssystems keine weiteren Informationen darüber gegeben, in welchem Zusammenhang oder in welcher Sprache er seine Abfrage wünscht, so sind sinngemäße Ergebnisse mit hoher Trefferwahrscheinlichkeit nicht möglich.

Auf der Seite der Informationssysteme steht zusätzlich ein ungleich größeres Problem den treffenden Ergebnissen entgegen: Die unstrukturierten und unklassifizierten Daten in großen Netzen, insbesondere dem Internet.

Schnittstellen

Für den Endnutzer sind die Schnittstellen zwischen den Thesauri und dem Informationssystem, über das sie verwendet meist von untergeordneter Bedeutung, obwohl sie in der Praxis nicht ohne Beziehung zu den Benutzerschnittstellen gesehen werden können.

Die Benutzerschnittstellen sollen in diesem Zusammenhang eine Kommunikation zwischen Nutzer, Informationssystem und Thesauri ermöglichen.

Dabei müssen in der Praxis bestimmte Bedingungen durch den Nutzungsschwerpunkt des Gesamtsystems vorgegeben sein.

Ein Nutzer, der z.B. eine Suchmaschine im Internet nutzt, wird in erster Linie an Seiten, Daten, Bildern, sprich ,,Inhalten`` aus dem Netz zu seiner Abfrage Interesse haben und weniger an den Verfahren, mittels derer diese Inhalte gefunden oder bereitgestellt werden.

Folgende Zusammenstellung listet wichtige Gruppen von Benutzerschnittstellen auf, die mit Informationssystemen und Thesauri verwendet werden können.

Nicht-interaktive Benutzerschnittstellen
Interaktive Benutzerschnittstellen

Die Kriterien für das Verhalten nicht-interaktiver Benutzerschnittstellen sind in der Regel durch das Gesamtsystem gegeben. Beispielsweise ist ohne Einflußnahme durch den Nutzer festgelegt, welcher Datenbestand verwendet wird oder was bei bestimmten Aktionen geschieht.

Für bestimmte Anwendungsfälle ist eine nicht-interaktive Benutzerschnittstelle denkbar, die sich durch den Nutzer lediglich an- und abschalten läßt.

Interaktive Benutzerschnittstellen können vielfältige Realisierungen haben, die sich meist auf die möglichen Einstellungen zu dem jeweiligen Verfahren beziehen. Gemeinsam ist ihnen eine Anpassung des Verhaltens der Schnittstelle durch den Nutzer. Da dies auch mit mehr oder weniger Aufwand für den Nutzer verbunden ist, beschränkt man sich in aller Regel auf einige wichtige Aspekte, um die Ergonomie und Übersichtlichkeit des Systems nicht unnötig zu beeinträchtigen. In gewissem Maße können Möglichkeiten geschaffen werden, solche Einstellungen individuell zu speichern (Beispiel: MetaGer PerEin-Manager [3]).

Gerade interaktive Benutzerschnittstellen erfordern ein höheres Maß an Konzeptionierung und Planung, auch hinsichtlich notwendiger laufender Anpassungen.

Die Umsetzung ist mit allgemein verwendeten Mitteln realisierbar, beispielsweise CGI/HTML, um eine möglichst breite Nutzbarkeit zu gewährleisten.

Zusammenfassung der Ergebnisse

Die Einsatzbereiche von Thesauri können auf Informationssysteme, sogar auf Suchmaschinen im Internet, erweitert werden.

Die Überlegungen in diesem für Thesauri neuen Anwendungsbereich versprechen gute Ergebnisse.

Dazu können Thesauri bezüglich der vorhandenen Informationen und Strukturen derart erweitert werden, daß sie für Suchvorgänge in heterogenem Datenmaterial und insbesondere mit Suchmaschinen im Internet geeignet sind.

Ihr Einsatz kann andere Methoden nicht vollständig ersetzen, aber um wertvolle Ergebnisse bereichern, denn durch die Nutzung des, in Thesauri gespeicherten ,,Wissens``, lassen sich weitergehende, themenrelevante Informationen z.B. im Datenbestand des Internets erschließen.

Ein Einsatz für eine automatische Suche, also beispielsweise die automatische Suche nach Begriffen, die mit einem Abfragebegriff verknüpft sind, ist ohne eine schwerfälligere Benutzerführung nicht praktikabel. In den Fällen in denen solches, allerdings ohne den expliziten Einsatz umfangreicherer Thesauri, im Internet beobachtet werden konnte, sind die Ergebnisse eher zweifelhaft.

Zur Ermittlung von Suchvorschlägen für Suchmaschinen ist zunächst eine nicht-interaktive Benutzerschnittstelle ausreichend. Dies kann bei Ausweitung der Einsatzmöglichkeiten erweitert werden.

Durch die Auswahl geeigneter Anwendungsbereiche und die Bereitstellung neuer Angebote, welche durch eigene Randbedingungen die Flexibilität für Recherchen in Informationssystemen erweitern, können auch innovative Einsatzmöglichkeiten für Thesauri erprobt werden.

Literatur

1
Rückemann, C.-P.: Kategorien-Lexika zur Nutzung mit Informationssystemen. [Internet], 2002. URL: http://www.unics.uni-hannover.de/cpr/x/publ/2002/katlex (Text).

2
Rückemann, C.-P.: Phonetische Algorithmen zu komparativen Zwecken am Beispiel des phonetischen Komparators für Informationssysteme. [Internet], 2002. URL: http://www.unics.uni-hannover.de/cpr/x/publ/2002/phokom (Text), URL: http://jserv.rrzn.uni-hannover.de/meta/cgi-bin/cprsndx_eqkatll.sh?rueckemann+forschung.

3
Rückemann, C.-P.: Informationssysteme: PerEin-Manager. [Internet], 2002. URL: http://www.unics.uni-hannover.de/cpr/x/publ/2002/perein (Text), URL: http://metager.de/index0-config.html.


© 2003 Dr. Claus-Peter Rückemann, RRZN Hannover / E-Mail [--] / Tel. [--]
vi betrieben.
Letzte Änderung: Mo, 06. Jan. 2003, 22:11:27 MEZ