Inkunni: Begriffe im Umfeld von Begriffen - Handverlesene Netzwerke für die Naturwissenschaften und andere Gebiete

Claus-Peter Rückemann
13. Jan. 2005


Kurzfassung:

Zahlreiche Aufgaben bei der Arbeit mit Gruppen von Zeichenfolgen erfordern Mechanismen zur Handhabung von Abhängigkeiten der Elemente. In diesem Artikel werden Aspekte eines Korrelationsalgorithmus (Inkunni-Algorithmus) diskutiert, der semi-intuitive Zusammenhänge nutzt, um zusätzliche Informationen zu gewinnen. Dies ist insbesondere für die Verarbeitung und Nutzung von Wortfolgen von Bedeutung, beispielsweise bei der Erschließung lexikalischer Informationen für vielfältige Anwendungen.


Inhalt

 

Ziel

Ziel der hier zusammengefaßten Untersuchungen ist die Evaluierung eines neuen Verfahrens zur automatischen Ermittlung von ungewichteten Begriffsfeldern fachspezifisch assoziierter Begriffe auf Basis lexikalisch verknüpfter Themen.

Inkunni

Inkunni stellt einen grundlegenden, vielseitig einsetzbaren Korrelationsalgorithmus dar, der auf der rekursiven Vernetzung lexikalisch verknüpfter Begriffe basiert, bezogen auf eng eingegrenzte thematische Zusammenhänge als Teil einer umfangreichen Datenbasis.

Untersucht wurden verschiedene Anwendungsgebiete. Alle weitergehenden Untersuchungen wurden auf naturwissenschaftliche Fachthemen konzentriert. Die in diesem Zusammenhang hier genauer vorgestellten Ergebnisse orientieren sich an verfügbarem lexikalisch verknüpftem Material.

Die ersten konkreten Überlegungen unter diesem Arbeitstitel stammen aus der Mitte der 1980er Jahre.

Hier werden zum Vergleich insbesondere einige Möglichkeiten und Probleme weniger komplexer, öffentlich verfügbarer und nicht fachlich und redaktionell geschlossener Informationsquellen bezüglich vergleichbarer Mechanismen behandelt.

Inkunni für qualitativ hochwertiges Datenmaterial

Seit den Planungen zu einem Kompendium umfangreicher naturwissenschaftlicher Begriffsfelder seit etwa 1985 [LX-Projekt] wurden in den neunziger Jahren in verschiedenen Bereichen die inhaltlichen Grundlagen für die Ausnutzung sehr komplexer Fachzusammenhänge geschaffen [Rückemann 1995b], [Rückemann 1995a], [Rückemann 1994b], [Rückemann 1994a].

Eine Veröffentlichung des Datenmaterials und der entwickelten Anwendungen ist zu diesem Zeitpunkt nicht vorgesehen.

Inkunni für öffentlich vorhandene Wortfolgen

Um das Verfahren exemplarisch für öffentlich vorhandene, konventionelle Wortfolgen nutzen zu können, wurde in den letzten Jahren die Idee zu einem vielseitig einsetzbaren Korrelationsmechanismus für beliebige Begriffe an verschiedenen Datenbeständen ausgearbeitet.

Als optionale Methoden können beispielsweise phonetische, syntaktisch, korrelative Verfahren aber auch statistische oder andere Bewertungsmethoden zum Einsatz kommen.

Dazu existieren einige Beispiele für optionale Methoden [Rückemann 2003b], [Rückemann 2003c], [Rückemann 2002b], [Rückemann 2002a], [Rückemann 2003a].

Im Vergleich zum komplexen, hochqualitativen Datenmaterial wurde für öffentlich vorhandene Datenbestände ein sehr einfache aber effektive Implementierung des Verfahrens umgesetzt und erstmals im Jahr 2003 an verschiedenem Datenmaterial getestet und über mehrere Jahre fortlaufend gepflegt.

Randbedingungen für den Aufgabenschwerpunkt

Die Hauptanforderung ist die Ausnutzung einer rekursiven Vernetzung lexikalisch verknüpfter Begriffe zur Gewinnung von zusätzlichen Informationen für weitergehende Anwendungen und Aussagen.

Dazu ist eine Extraktion aus eng eingegrenzten thematischen Zusammenhängen von besonderer Bedeutung.

Für eine flexible Nutzung ist der Aufbau von Fachzusammenhängen dazu unerläßlich.

Ein Algorithmus allein ist für einen solchen Einsatz vollständig unzureichend. Der Aufbau geeigneter Fachzusammenhänge ist keine ingenieurtechnische Aufgabe, sondern erfordert Expertenwissen, fachlich und theoretisch fundierte Arbeit.

Die Elemente der aufgebauten Fachzusammenhänge entsprechen in ihrer Minimalanforderung lexikalisch handhabbaren Bausteinen, die durch verschiedene Mechanismen verknüpft werden können.

Obwohl es sich bei jedem Element um einen umfassenden Beitrag handeln kann, wäre es grundfalsch in diesem Zusammenhang von ,,Wissen`` zu sprechen. Wissen kann nicht gespeichert oder vorhanden sein, weder in den ,,Tiefen des Internets`` noch in Computern, Datenbanken, Programmen oder ähnlichem, auch wenn solches aus Unkenntnis und zu Zwecken der Vermarktung in solchen Zusammenhängen gerade populistisch gerne in vorderster Linie genannt wird.

Aufgrund der gepflegten Fachzusammenhänge kann ein solches Verfahren sehr flexibel für bestimmte Einsatzgebiete angepaßt werden und eine gravierend höhere Qualität gegenüber Verfahren erreichen, die versuchen Relationen und Assoziation aus beliebigem, unbekanntem Datenmaterial im Netz einfach über Automatismen (Assoziator, Relator usw.) zu erhalten.

Vor allem hinsichtlich der Einsatzgebiete liegt die mit Abstand größte Bedeutung dabei im Aufbau und Ausbau der fachlichen Inhalte. Ohne diese ist letztendlich eine Verbesserung der erzielbaren Ergebnisse im Detail nicht erreichbar.

Der Aufwand der Schaffung der Inhalte wird von Zeit, Dauer, Umfang und Anspruch in jedem praktischen Fall einen unverhältnismäßig größeren Anteil haben, als alle Arbeiten an entsprechenden Algorithmen zusammengenommen.

Die Zusammenstellungen müssen sich für die Erreichbarkeit einer ausgewogenen und aktuellen Darstellung über längere Zeiträume hinziehen und weiterhin kontinuierlich gepflegt werden. Ein Abnehmen der Komplexität ist dabei nicht ohne, möglicherweise irreversiblen, Verlust von Information und Inhalten möglich.

Öffentlich verfügbares Material: Wikipedia

Unter der Bezeichnung Wikipedia ist seit einigen Jahren ein Projekt bekannt, das beliebige ,,Inhalte`` auch ohne Quellenangaben im Netz verfügbar macht.

Lediglich aufgrund des Bekanntheitsgrades in der Öffentlichkeit sei in diesem Zusammenhang an dieser Stelle darauf näher eingegangen.

Die Datenbankinhalte von Wikipedia werden über ein semiautomatisches Verfahren (,,Wiki-Konzept``) gepflegt und nachgepflegt.

Dadurch kann, mit verhältnismäßig geringem Aufwand, auf technische Änderungen und Erweiterungen bei Wikipedia reagiert werden.

Die folgende Statistik stellt das Anwachsen der Inhalte und die Verwendbarkeit der Einträge für den speziellen Zweck mit den Suchergebnissen über die letzten Jahre dar. Dargestellt ist lediglich der für allgemeine Anwendungen verwendbare deutschsprachige Anteil.

Datum der Größe Anzahl Anzahl Anteil
Verwendung des Dumps Einträge nutzbarer E. n.E.
(ISO) (MB) (in Tausend) (in Tausend) (in Prozent)
20031105 92 74 50 68
20031121 101 79 52 66
20040110 128 97 64 66
20040226 160 121 80 66
20040424 272 193 125 65
20040824 492 324 208 64
20050110 789 489 302 62

Das Wachstum der Datenbank schreitet derzeit noch ungemindert voran, dabei muß man aktuell etwa mit einem Wachstum von über 10 Prozent pro Monat (DE) rechnen.

Allerdings nimmt der Anteil nutzbarer Einträge leicht ab, da immer häufiger Zeichenkombinationen in den Seitennamen der Einträge verwendet werden, die z.B. nicht als Text-Eingabe von Nutzern sinnvoll verwendet werden können, beispielsweise @ / , ( ) * ? usw. Teilweise dienen diese der Kategorisierung, die in einem Eingabefeld nicht auf ergonomische Weise erfragt werden kann.

Zusammengefaßt sind allein in den letzten vier Monaten über 80000 nutzbare Einträge, d.h. handverlesene Treffer, hinzugekommen, die ausgewertet werden können. Diese Quantität ist auch der wesentliche Vorteil dieser Datenbasis.

Grundlegende Nachteile der Nutzung eines Wiki-Konzepts

 

Das Prinzip des Wiki-Konzepts und speziell die dadurch entstehenden Inhalte sind durchaus in vielerlei Hinsicht grundsätzlich kritisch zu hinterfragen, nicht nur, aber auch hinsichtlich der Verwendung für den hier beschriebenen Zweck.

Die Probleme sind aber nicht nur grundsätzlicher und inhaltlicher Natur, sondern liegen auch im gesellschaftlichen, politischen und organisatorischen Umfeld [Wikipedia 2004], [Heise Online 2003], [Heise Online 2004d], [Heise Online 2004c], [Heise Online 2004b], [Heise Online 2004a].

Inkunni Test-Projekt

Um den Erfahrungen mit einem für diese Zwecke qualitativ hochwertigem Datenmaterial eine Entsprechung aus öffentlich verfügbaren Mitteln gegenüberzustellen bieten sich aus diesem Umfeld verfügbaren Materials als Datenbasis für verschiedene Implementierungen derzeit beispielsweise allgemeine enzyklopädische Inhalte, juristische Inhalte und Linux-relevante Inhalte an.

Inkunni-Implementierung   Datenbasis / Verfahren Quelle
Wikunna =: Erschließung von Wikipedia mittels Inkunni [Wikipedia]
Jukunni =: Erschließung von Jura Wiki mittels Inkunni [JuraWiki]
Likunni =: Erschließung von Linux Wiki mittels Inkunni [LinuxWiki]

Eine darüber hinausgehende Zusammenfassung der Themenkreise ist unter besonderer Berücksichtigung redundanter aber auch unterschiedlich behandelter und dadurch nur quasi-redundanter Themen möglich.

Die Bezeichnung ,,Meta Wiki`` bzw. ,,MetaWiki`` ist bereits anderweitig vorbelegt [MetaWiki]. Eine übergeordnete Auswertung, basierend auf einer zusammengefaßten Datenbasis, die entsprechend als ,,HyperWiki`` bezeichnet wird, ist beispielsweise Hykunni.

Umsetzung einer Testumgebung

Die zur Veranschaulichung umgesetzte Implementierung [Inkunni] nutzt einen sehr vereinfachten Algorithmus.

Die Inhalte sind durch fachbezogene Informationen erweitert und modifiziert und über ein korrigierendes Verfahren ergänzt. Auf dieses zusätzliche Verfahren soll hier nicht weiter eingegangen werden.

Der umgesetzte Algorithmus kann beispielsweise über eine Schnittstelle (CGI o.ä.) bereitgestellt werden.

Damit ist es möglich neben Rekursivität der Verknüpfungen und einer automatischen Aufbereitung extrahierter Informationen (Auto-HTML) auch weitere externe Quellen wie z.B. Verweise mit einzubeziehen.

Beispiel (funktionsfähig zum Zeitpunkt dieser Veröffentlichung):

http://jserv.rrzn.uni-hannover.de/meta/cgi-bin/inkunni.sh?Text

Erst bei einer anspruchsvolleren Datenbasis können nicht nur spezielle Funktionen ermöglicht werden, sondern auch Kategorien und weitere Eigenschaften [LX-Projekt] zu einer feineren Auflösung herangezogen werden.

Verweise auf Einträge der verteilten Quellen sind ebenso möglich, wie Verweise auf Suchergebnisse von Suchmaschinen.

Korrekturmöglichkeiten und Filter sind bei einem ernsthaften Betrieb unerläßlich, um Manipulationen jeglicher Art durch Dritte auszuschließen.

Auf der technischen Seite können Verteilte Systeme als Grundlage für den Aufbau einer gemeinsamen Struktur herangezogen werden. Über die technische Beschaffenheit solcher Systeme soll hier keine Aussage gemacht werden.

Die notwendige Organisation der Inhalte ist hingegen durch eine dezentrale bzw. fehlende Koordination nicht zu erreichen.

Die systemseitige Umsetzung beim Einsatz optionaler Methoden kann neben der Nutzung eines Verteilten Systems eine Lastverteilung und Lastbegrenzung erfordern, da der durch die interaktive Nutzung entstehende Rechenaufwand je nach umgesetztem Verfahren sehr hoch werden kann.

Hier können Methoden aus dem Bereich der Techniken, die beim Hochleistungsrechnen (High Performance Computing, HPC) Anwendung finden, in Kombination mit dem Prinzip des Grid Computing sowie Suchmaschinentechnologien sehr leistungsfähige modulare Systeme ermöglichen.

Die Organisationsstrukturen aus diesen Bereichen sind allerdings nicht für das Ziel anspruchsvoller wissenschaftlicher Inhalte geeignet. Hier müssen weitere geeignete zentrale Strukturen geschaffen werden.

Beispiele für die Erweiterung der Beziehungen

Als minimales Beispiel ist hier auszugsweise die Entwicklung verschiedener Begriffe aus öffentlichen Quellen dargestellt. Die Anzahl integrierter Verweise zu einem Thema sind an ausgewählten Beispielen in folgender Tabelle aufgeführt. Das Korrelationsverfahren zur Ermittlung der Fachzusammenhänge verwendet eine zusätzliche Korrelationskorrektur.

Begriff Jahr
  2003 2004 2005
Deutschland 19 391 498
Geowissenschaften 79 103 109
Linux 57 111 45

Veränderungen unterschiedlicher Art spiegeln sich auch in der Anzahl integrierter Verweise wider. Die Veränderungen der Anzahl integrierter Verweise hat mittelbaren Einfluß auf die Qualität der Ergebnisse. Die Ursachen der Entwicklung sind verschiedener Natur, beispielsweise

Die Auswirkungen solcher Aspekte können u.a. durch geordnete Redaktionsarbeit gesteuert werden.

Weiterführende Methoden erfordern nicht nur auf inhaltlicher Ebene, sondern auch bei der Implementierung des eingesetzten Verfahrens einen entsprechenden Aufwand.

Eine zusätzliche Berücksichtigung möglicher phonetischer Eigenschaften (phonetischer Komparator, [Rückemann 2002b]) setzt für spezielle Anwendungen beispielsweise eine Bestimmung der verwendeten Sprache und Mechanismen zur geeigneten Handhabung der damit verbundenen Informationen voraus.

Anwendungen

Das Verfahren der ,,handverlesenen Netzwerke`` kann zur Lösung und Unterstützung verschiedener Aufgaben eingesetzt werden:

Das hier dargestellte Prinzip wird seit Jahren in den Naturwissenschaften und verwandten Fachbereichen in verschiedenen nicht öffentlich zugänglichen Anwendungen erfolgreich eingesetzt. Die vorgestellte öffentlich zugängliche Test-Implementierung zeigt einige Aspekte und grundlegende Möglichkeiten.

Zusammenfassung der Ergebnisse

Handverlesene Netzwerke, Inkunni [Inkunni-Projekt], sind ein effizientes und effektives Mittel zur Abbildung und flexiblen Nutzung von komplexen Fachzusammenhängen.

Durch das Verfahren werden bereits mittels verhältnismäßig einfacher Algorithmen Anwendungen für ein vielfältiges Spektrum von Einsatzgebieten ermöglicht.

Gerade hinsichtlich der Naturwissenschaften ist die wichtigste Grundlage eine qualitativ hochwertige und umfangreiche Basis themenbezogener Fachinformationen.

Daten der öffentlich zugänglichen Wikipedia-Enzyklopädie, die allgemeine Themen umfaßt, sind hingegen nur sehr begrenzt für einen Einsatz mit anspruchsvollen Anwendungen geeignet.

Erst spezielle und umfangreiche Fachenzyklopädien [LX-Projekt] ermöglichen eine hinreichende Qualität und Verläßlichkeit. Für eine Nutzung bezogen auf Fachthemen ist eine geschlossene fachredaktionelle Bearbeitung aller Themen unerläßlich.

Literatur

Heise Online 2003
Heise Online (2003). Freie Enzyklopädie Wikipedia feiert hunderttausendsten Eintrag. Heise Online, URL: http://www.heise.de/newsticker/data/anw-21.01.03-003.

Heise Online 2004a
Heise Online (2004a). Planeggs Eule darf nicht in die Wikipedia. Heise Online, URL: http://www.heise.de/newsticker/meldung/51124.

Heise Online 2004b
Heise Online (2004b). Wikipedia fürs Regal. Heise Online, URL: http://www.heise.de/newsticker/meldung/47966.

Heise Online 2004c
Heise Online (2004c). Wikipedia mit Datenbankproblemen. Heise Online, URL: http://www.heise.de/newsticker/meldung/47996.

Heise Online 2004d
Heise Online (2004d). Wikipedia mit mehr als 200.000 Artikeln. Heise Online, URL: http://www.heise.de/newsticker/meldung/44295.

Inkunni
Inkunni. Inkunni. URL: http://jserv.rrzn.uni-hannover.de/meta/cgi-bin/inkunni.sh.

Inkunni-Projekt
Inkunni-Projekt. Inkunni-Projekt. URL: http://www.unics.uni-hannover.de/cpr/x/rprojs/de/index.html#Inkunni (Projekt-Informationen).

JuraWiki
JuraWiki. Jura Wiki. URL: http://www.jurawiki.de.

LinuxWiki
LinuxWiki. Linux Wiki. URL: http://www.linuxwiki.org.

LX-Projekt
LX-Projekt. LX-Projekt. URL: http://www.unics.uni-hannover.de/cpr/x/rprojs/de/index.html#LX (Projekt-Informationen).

MetaWiki
MetaWiki. Meta Wiki. URL: http://meta.wikimedia.org.

Rückemann 1994a
Rückemann, C.-P. (1994a). Ein neues, portables Datenbankkonzept und Austauschformat für wissenschaftliche Daten zum Einsatz für lexikalische Anwendungen, verteilte Informationssysteme, multilingualen, professionellen Textsatz und Analysen zu Semantik und Struktur. (unveröff.).

Rückemann 1994b
Rückemann, C.-P. (1994b). Online Recherche- und Informationssystem der Informatik und Computerwissenschaften. [Internet].

Rückemann 1995a
Rückemann, C.-P. (1995a). Expertensysteme und geowissenschaftliche Informationssysteme: einfache, sortierte, hierarchische, vernetzte Begriffslisten und Kombinationen. IS-Forum 1995, [Vortrag].

Rückemann 1995b
Rückemann, C.-P. (1995b). lxto - eine modulare Anwendung zum neuen portablen Austauschformat für wissenschaftliche Daten zum Einsatz mit Satz- und Informationssystemen. (unveröff.).

Rückemann 2002a
Rückemann, C.-P. (2002a). Kategorien-Lexika zur Nutzung mit Informationssystemen. [Internet]. URL: http://www.unics.uni-hannover.de/cpr/x/publ/2002/katlex (Text), URL: http://www.unics.uni-hannover.de/cpr/x/bib/Rueckemann_2002_Kategorien.bib (BibTeX Eintrag), URL: http://www.unics.uni-hannover.de/cpr/x/rprojs/de/index.html#PhonetikLexikon (Projekt-Informationen).

Rückemann 2002b
Rückemann, C.-P. (2002b). Phonetische Algorithmen zu komparativen Zwecken am Beispiel des phonetischen Komparators für Informationssysteme. [Internet]. URL: http://www.unics.uni-hannover.de/cpr/x/publ/2002/phokom (Text), URL: http://www.unics.uni-hannover.de/cpr/x/bib/Rueckemann_2002_Komparator.bib (BibTeX Eintrag), URL: http://jserv.rrzn.uni-hannover.de/meta/cgi-bin/cprsndx_eqkatll.sh?rueckemann+forschung, URL: http://www.unics.uni-hannover.de/cpr/x/rprojs/de/index.html#Iup (Projekt-Informationen).

Rückemann 2003a
Rückemann, C.-P. (2003a). Beitrag: Vom Urwald der Wörter zur strukturierten Suche ..., Suchhilfe für Informationssysteme und Suchmaschinen. 5. Juni 2003, 25. DGI-Online-Tagung, Competence in Content/comInfo, 3.-5. Juni 2003, Frankfurt a.M., Deutschland, [Vortrag], [Internet]. 11 Seiten, URL: http://www.unics.uni-hannover.de/cpr/x/publ/2003/beitrag/beitrag.html (Text), URL: http://www.unics.uni-hannover.de/cpr/x/publ/2003/beitrag/beitrag_dgi_rueckemann.pdf (Präsentation) (PDF), URL: http://www.unics.uni-hannover.de/cpr/x/bib/Rueckemann_2003_DGI.bib (BibTeX Eintrag), URL: http://www.unics.uni-hannover.de/cpr/x/rprojs/de/index.html#IuT (Projekt-Informationen).

Rückemann 2003b
Rückemann, C.-P. (2003b). Informationssysteme und Thesauri. [Internet]. URL: http://www.unics.uni-hannover.de/cpr/x/publ/2003/informationssysteme/index.html (Text), URL: http://www.unics.uni-hannover.de/cpr/x/bib/Rueckemann_2003_Informationssysteme.bib (BibTeX Eintrag), URL: http://www.unics.uni-hannover.de/cpr/x/rprojs/de/index.html#IuT (Projekt-Informationen).

Rückemann 2003c
Rückemann, C.-P. (2003c). Thesaurus-Unterstützung für Informationssysteme. [Internet]. URL: http://www.unics.uni-hannover.de/cpr/x/publ/2003/thesaurus (Text), URL: http://metager.de/index0-thesaurus.

Wikipedia
Wikipedia. Wikipedia. URL: http://de.wikipedia.org.

Wikipedia 2004
Wikipedia (2004). Wikipedia: Hilfe für Opfer von Lösch-Attacken. Wikipedia, URL: http://de.wikipedia.org/wiki/Wikipedia:Hilfe_f%FCr_Opfer_von_L%F6sch-Attacken.


© 2005 Dr. Claus-Peter Rückemann / E-Mail [--] / Tel. [--]
vi betrieben.
Letzte Änderung: Do, 13. Jan. 2005, 21:18:36 MEZ