Claus-Peter Rückemann
02. Feb. 2003
Der Einsatz von Thesauri mit Informationssystemen, die auf sehr heterogene und unmoderierte Inhalte wie im Internet zugreifen, stellt hohe Anforderungen, sowohl an die Struktur und Inhalte der Thesauri, als auch an die benötigten Algorithmen, um einen sinnvollen Einsatz für den Nutzer der Informationssysteme zu ermöglichen.
Dieser Beitrag beschreibt nach dem aktuellen Stand der Untersuchungen wichtige Ergebnisse und Anforderungen. Betrachtungen zur Wirtschaftlichkeit wurden nicht durchgeführt.
Im folgenden werden einige am RRZN entwickelte und implementierte Verfahren vorgestellt und durch Beispiele öffentlich eingesetzter Verfahren ergänzt.
Im Rahmen der Untersuchungen zu Informationssystemen wurde unter anderem ein einfaches Kategorien-Lexikon [1] aufgebaut und eine Software entwickelt, zur Errechnung von Suchvorschlägen für Informationssysteme und deren Verwendung speziell mit Suchmaschinen.
In einem weitergehenden Projekt wurde ein phonetischer Komparator [2] konzipiert und entwickelt, der für die Nutzung des Kategorien-Lexikons bestimmte Toleranzen ermöglicht. Diese Toleranzen beziehen sich auf phonetische Ähnlichkeiten in Kombination mit verschiedenen Filtern.
Es gibt mehrere, einfache Möglichkeiten, Abfragebegriffe zu prüfen oder Beziehungen zu möglicherweise verwandten Begriffen herzustellen.
Beispielsweise können Synonyme anhand einer Synonymliste ermittelt werden.
Eine andere Möglichkeit ist, verwandte oder assoziierte Begriffe durch Häufigkeitsanalysen in Listen oder in Datenmaterial im oder aus dem Netz zu ermitteln.
Welchen Anforderungen müssen Thesauri für den Einsatz bei Informationssystemen im Internet genügen?
Für Anwendungen mit umfassenderen Informationssystemen sind folgende Randbedingungen der Inhalte von besonderer Bedeutung:
Für breit angelegte Inhalte sind umfangreiche und allgemein relevante Kategorien von besonderer Bedeutung.
Gegebenenfalls kann eine grobe Strukturierung in eine Anzahl separater Thesauri von Nutzen sein. Dies kann den praktischen Einsatz hinsichtlich Prioritäten und Skalierbarkeit erleichtern. Dabei spielt jedoch die Möglichkeit einer flexiblen Kopplung der Thesauri untereinander eine besondere Rolle.
In jedem Fall ist für den anspruchsvollen Einsatz mit vielen Rechenoperationen die Antwortzeit einfacher und komplexer Abfragen, sowohl für den Betreiber auf der Seite des Informationssystems, wie auch für den Betreiber auf der Thesaurus-Seite wichtig.
Für Informationssysteme mit der Möglichkeit zur Suchabfrage, beispielsweise bei Suchmaschinen, ist häufig eine Hilfestellung zur Ermittlung geeigneter bzw. themenrelevanter Suchbegriffe wünschenswert.
Zur Erprobung wurde exemplarisch eine Schnittstelle implementiert (Beispiel: Vorschläge zu VW: http://jserv.rrzn.uni-hannover.de/meta/cgi-bin/thesaurus.pl?vw).
Diese Schnittstelle wurde als Beispielanwendung zur Generierung von Suchvorschlägen http://metager.de/index0-thesaurus in die Benutzerschnittstelle einer Suchmaschine (http://metager.de) integriert.
Wie können Benutzerschnittstellen gestaltet werden?
Für den Endnutzer sind die Schnittstellen zwischen den Thesauri und dem Informationssystem, über das sie verwendet meist von untergeordneter Bedeutung, obwohl sie in der Praxis nicht ohne Beziehung zu den Benutzerschnittstellen gesehen werden können.
Die Benutzerschnittstellen sollen in diesem Zusammenhang eine Kommunikation zwischen Nutzer, Informationssystem und Thesauri ermöglichen.
Dabei müssen in der Praxis bestimmte Bedingungen durch den Nutzungsschwerpunkt des Gesamtsystems vorgegeben sein.
Ein Nutzer, der z.B. eine Suchmaschine im Internet nutzt, wird in erster Linie an Seiten, Daten, Bildern, sprich ,,Inhalten`` aus dem Netz zu seiner Abfrage Interesse haben und weniger an den Verfahren, mittels derer diese Inhalte gefunden oder bereitgestellt werden.
Folgende Zusammenstellung listet wichtige Gruppen von Benutzerschnittstellen auf, die mit Informationssystemen und Thesauri verwendet werden können.
Die Kriterien für das Verhalten nicht-interaktiver Benutzerschnittstellen sind in der Regel durch das Gesamtsystem gegeben. Beispielsweise ist ohne Einflußnahme durch den Nutzer festgelegt, welcher Datenbestand verwendet wird oder was bei bestimmten Aktionen geschieht.
Für bestimmte Anwendungsfälle ist eine nicht-interaktive Benutzerschnittstelle denkbar, die sich durch den Nutzer lediglich an- und abschalten läßt.
Interaktive Benutzerschnittstellen können vielfältige Realisierungen haben, die sich meist auf die möglichen Einstellungen zu dem jeweiligen Verfahren beziehen. Gemeinsam ist ihnen eine Anpassung des Verhaltens der Schnittstelle durch den Nutzer. Da dies auch mit mehr oder weniger Aufwand für den Nutzer verbunden ist, beschränkt man sich in aller Regel auf einige wichtige Aspekte, um die Ergonomie und Übersichtlichkeit des Systems nicht unnötig zu beeinträchtigen. In gewissem Maße können Möglichkeiten geschaffen werden, solche Einstellungen individuell zu speichern (Beispiel: MetaGer PerEin-Manager [3]).
Gerade interaktive Benutzerschnittstellen erfordern ein höheres Maß an Konzeptionierung und Planung, auch hinsichtlich notwendiger laufender Anpassungen.
Die Umsetzung ist mit allgemein eingesetzten Mitteln realisierbar, beispielsweise CGI/HTML, um eine möglichst breite Verwendbarkeit zu gewährleisten.
Welche Vorteile und Herausforderungen ergeben sich beim Einsatz?
Wünschenswert ist in vielen Fällen eine automatische Verwendung der mit den verfügbaren Verfahren ermittelten Begriffe.
Die Ermittlung eines ,,optimalen`` Vorschlags ist nicht generell denkbar. In praktisch allen Fällen genügen die Randbedingungen, die durch eine einfache Suche z.B. mit einer Suchmaschine vorgegeben sind, nicht zur Auswahl eines oder einiger weniger Vorschläge.
Bei vielen Abfragen ist ein hoher Aktualitätsbezug wünschenswert, beispielsweise bei Tagesmeldungen, Wetter usw.
Dies stellt hohe Anforderungen an die Pflege der Thesauri.
Ein weitreichender Einsatz wird gerade in diesen Bereichen immer auch einen Anteil an manuellem Aufwand beinhalten.
Das Optimum muß daher darin bestehen eine möglichst effiziente Näherung an den ,,automatischen`` oder ,,aktuellsten`` Zustand zu erreichen.
Gerade in Fällen der Erschließung eines Themengebietes können Thesauri aufgrund ihrer besonderen Eigenschaften und den über sie verfügbaren Relationen ein unersetzbares Hilfsmittel für die Erhöhung der Präzision möglicher Suchabfragen darstellen (vgl. Thesaurus-Unterstützung für Informationssysteme [4]).
Als spezifisch für den angestrebten Einsatz können folgende Probleme angesehen werden.
Beispiel: Lassen sich zum Begriff Grundmoräne keine oder keine brauchbaren Treffer finden, dann wird die speziellere Suche nach Grundmoränenmaterial im allgemeinen keine größere Anzahl von Ergebnissen liefert.
Was in der Regel hier als Vorteil anzusehen ist, nämlich daß die zugeordneten Begriffe einem Thesaurus entstammen, hat aber in einzelnen Fällen auch solche ,,Ausnahmen``, die dieses Verhalten verstärken können. Denn sind die Begriffe nicht dem Datenbestand des zugehörigen Informationssystems entnommen, also z.B. dem Internet, kann es trotz perfekter Zuordnung dazu kommen daß sogar keine Treffer gefunden werden.
Beispiel: Für den Begriff Zeitung wäre der Oberbegriff Pressegattung fachlich perfekt. Bei der Verwendung dieses Oberbegriffs, z.B. mit Suchmaschinen im Internet, wird die überwiegende Zahl von Nutzern jedoch keine für sie interessanten Ergebnisse erzielen.
Bei den meisten Suchvorgängen, die über Suchmaschinen getätigt werden, geht es primär um ,,Finden`` und erst sekundär um ,,Wissen``.
Folgende Begriffe unterscheiden sich jeweils nur in einem Buchstaben oder durch einen Buchstabendreher voneinander, beziehen sich aber auf unterschiedliche Themengebiete.
a) | Konvektion | Konvention |
b) | Erdinnerns | Erinnern |
c) | Gesteck | Besteck |
d) | Moorleiche | Mooreiche |
e) | Polit | Pilot |
Dies zeigt, daß es wichtig sein kann, mehrere oder alle Abfragebegriffe eines Suchvorgangs auszuwerten, denn nur so kann mit höherer Wahrscheinlichkeit das richtige Themengebiet gefunden werden.
Ein Hilfsmittel, eine Unterscheidung zu erzielen, kann z.B. die Verwendung phonetischer Kodes sein.
a) | Konvektion | K512 | Konvention | K515 |
b) | Erdinnerns | E635 | Erinnern | E656 |
c) | Gesteck | G232 | Besteck | B232 |
d) | Moorleiche | M642 | Mooreiche | M620 |
e) | Polit | P430 | Pilot | P430 |
Bei diesen einfachen Beispielen lassen sich beispielsweise zwei Gruppen von Begriffen bilden, die mit Unterschieden im phonetischen Kode und die mit gleichen Kodes.
Eine Anwendung - ohne weitere Modifikation und ohne weitere Auswertung der Kodes - auf die Fehlerkorrektur würde daher nur noch die Begriffe Polit und Pilot als mögliche Korrektur durchlassen.
Wie leicht ersichtlich ist, kann die Kombination der verfügbaren Verfahren sehr schnell komplex werden. Auch mit einer Auswertung aller Abfragebegriffe und der Kombination möglicher Verfahren stößt man schnell an Grenzen.
Gut gepflegte Thesauri können hinsichtlich der inhaltlichen bzw. thematischen Vorschläge deutlich mehr leisten. Eine Fehlerkorrektur oder ein ,,Raten`` der möglichen Schreibweise ist mit ihnen allein hingegen nicht implizit möglich.
Ein anderes Problem ergibt sich z.B. bei Fachbegriffen. Für folgende Beispielbegriffe (linke Seite) sind oft die englischsprachigen Begriffe (rechte Seite) häufiger in internationalen Veröffentlichungen zu finden, obwohl im deutschsprachigen Raum die Begriffe auf der linken Seite sicherlich mit Vorrang verwendet werden.
1) Wellengleichungsmigration | Wave Equation Migration |
2) Median-Stapelung | Median Stack |
3) Stützstelle | Sample |
Eine Methode, die über die Möglichkeit verfügt, auch Sprachgrenzen für solche Abfragen zu überbrücken basiert im einfachsten Fall aus einem Wörterbuch bzw. einem mehrsprachigen Verzeichnis von Ausdrücken und Formulierungen. Für anspruchsvolle Aufgaben kann die Erstellung jedoch sehr aufwendig sein.
Fachzusammenhänge sind im allgemeinen nicht durch Häufigkeitsanalysen, Kategorien-Lexika, phonetische Methoden oder gar Fehlerkorrektur herzustellen.
Hier helfen auch keine Wörterbücher oder Verzeichnisse von Ausdrücken. Die Komplexität der Relationen erlaubt hier keine einfache Abbildung.
Gehen Begriffszusammenänge über eine konventionelle Übersetzung hinaus, so können gegebenenfalls fachbezogene Thesauri hilfreich sein.
Beispiel:
El Niño / Kelvin-Welle / Flipflop-Effekt / Walker-Zellen / Darwin-Tahiti-Austauschsystem
Der Zusammenhang zwischen ,,El Niño`` und ,,Kelvin-Welle`` wird durch keines der oben genannten Verfahren aufgelöst. Ebenso verhält es sich mit den weiteren Begriffen in dieser Begriffsfolge, obwohl sie in direktem Bezug zu dem wohl allgemein geläufigen Begriff ,,El Niño`` stehen.
Wie leicht ersichtlich ist, wird für den Aufbau entsprechender, fachbezogener Teile eines Thesaurus Expertenwissen benötigt.
Nicht für jeden Einsatz mit einem Informationssystem ist die Ausarbeitung eines jeden Fachthemas notwendig, aber von besonderer Bedeutung ist die grundlegende Möglichkeit solche Fachzusammenhänge abbilden zu können.
Nicht selten kommen gleiche Begriffe und noch allgemeiner ,,identische Zeichenketten`` in völlig unterschiedlichen Zusammenhängen vor.
Beispielsweise Tag im Deutschen und Tag (Kennzeichen, Marke, Anhänger) im Englischen.
Selbst wenn sich ein Begriff mit hinreichender Wahrscheinlichkeit übersetzen läßt, ist der Zusammenhang noch alles andere als sicher!
Beispiel: Busch (Deutsch) <-> Bush (Englisch).
Mögliche Zusammenhänge: Wilhelm (Busch), Buschwerk/Strauch/Staude, George (Bush) ...
Sind von dem Nutzer eines Informationssystems keine weiteren Informationen darüber gegeben, in welchem Zusammenhang oder in welcher Sprache er seine Abfrage wünscht, so sind sinngemäße Ergebnisse mit hoher Trefferwahrscheinlichkeit nicht möglich.
Auf der Seite der Informationssysteme steht zusätzlich ein ungleich größeres Problem den treffenden Ergebnissen entgegen: Die unstrukturierten und unklassifizierten Daten in großen Netzen, insbesondere dem Internet.
Über die Schnittstelle http://jserv.rrzn.uni-hannover.de/meta/cgi-bin/thesaurus.pl?vw+karosserie wurden zu den Suchergebnissen Suchvorschläge angeboten. Folgende Beispiele veranschaulichen die Möglichkeiten zu einem Zeitpunkt der Entwicklung.
Beispiele für einzelne Begriffe:
Folgendes Beispiel mit zwei Abfragebegriffen:
Beispiel:
Suchbegriff: karosserie Oberbegriffe: fahrwerk Unterbegriffe: karosserieumbau+ kunststoffkarosserie
Ausgewählter Vorschlag: VOLKSWAGEN+FAHRWERK
Der ausgewählte Vorschlag ist in diesem Beispiel aus einem Synonym und wenn diese fehlen aus einem Oberbegriff usw. zusammengesetzt, so daß es möglich ist andere Begriffe mit ähnlicher Bedeutung vorzuschlagen.
Die Vorschläge kommen (zum testen) in dieser Version immer (solange Ihre Schnittstelle einen Vorschlag liefert). (Das könnte man in der endgültigen Version so mach, daß die Vorschläge nur angezeigt werden, wenn unter 20 oder 30 Treffern von MetaGer geliefert werden.)
Bei den angegebenen Begriffen ist immer der jeweilige der Suchbegriffe bei der verlinkten Suche durch den angezeigten Begriff ersetzt (ist sicher intuitiver, wenn man es sieht ;-) Die jeweils ausgewählten Begriffe werden nach den Anklicken bereits in das MetaGer Suchfeld für eine neue Suche eingetragen.
Die Einsatzbereiche von Thesauri können auf Informationssysteme, sogar auf Suchmaschinen im Internet, erweitert werden.
Die bisherigen Tests bestätigen die positiven Voruntersuchungen dieses für Thesauri neuen Anwendungsbereiches.
Thesauri können bezüglich der vorhandenen Informationen und Strukturen derart erweitert werden, daß sie für Suchvorgänge in heterogenem Datenmaterial und insbesondere mit Suchmaschinen im Internet geeignet sind.
Ihr Einsatz kann andere Methoden nicht vollständig ersetzen, aber um wertvolle Ergebnisse bereichern, denn durch die Nutzung des, in komplexen Thesauri gespeicherten ,,Wissens``, lassen sich weitergehende, themenrelevante Informationen z.B. im Datenbestand des Internets erschließen wie dies kaum mit anderen Mittel möglich ist.
Im Gegenzug können die äußerst vielseitigen Informationsangebote, insbesondere im Internet, durch die Anbindung von Thesauri an Suchmaschinen auf einzigartige Art und Weise für die Thesauri erschlossen werden und der inhaltlichen und strukturellen Erweiterung und Aktualisierung der Thesauri zugute kommen.
Wie gestaltet sich die zukünftige Entwicklung zur Automatisierung von Suchvorschlägen für die strukturierte Suche im Internet?
Man muß hier deutlich zwischen Suchvorgängen mit einer automatischen Suche über ermittelte Begriffe und der Automatisierung und Verbesserung des Ablaufs der Suchvorgänge unterscheiden.
Ein Einsatz für eine automatische Suche, also beispielsweise die automatische Suche nach Begriffen, die mit einem Abfragebegriff verknüpft sind, ist ohne eine schwerfälligere Benutzerführung nicht praktikabel. In den Fällen in denen solches, allerdings ohne den expliziten Einsatz umfangreicherer Thesauri, im Internet beobachtet werden konnte, sind die Ergebnisse eher zweifelhaft.
Eine Automatisierung des Ablaufs der Suchvorgänge hingegen ist eng gekoppelt an den Ausbau der Strukturen, insbesondere die Abbildung der assoziativen Verarbeitung von Mehrwortabfragen durch die Thesauri.
Zur Ermittlung von Suchvorschlägen für Suchmaschinen ist zunächst eine nicht-interaktive Benutzerschnittstelle ausreichend. Dies kann bei Ausweitung der Einsatzmöglichkeiten vielseitiger gestaltet werden.
Durch die Auswahl geeigneter Anwendungsbereiche und die Bereitstellung neuer Angebote, welche durch eigene Randbedingungen die Flexibilität für Recherchen in Informationssystemen erweitern, können auch innovative Einsatzmöglichkeiten für Thesauri erprobt werden.