Claus-Peter Rückemann
13. Jan. 2005
Zahlreiche Aufgaben bei der Arbeit mit Gruppen von Zeichenfolgen erfordern Mechanismen zur Handhabung von Abhängigkeiten der Elemente. In diesem Artikel werden Aspekte eines Korrelationsalgorithmus (Inkunni-Algorithmus) diskutiert, der semi-intuitive Zusammenhänge nutzt, um zusätzliche Informationen zu gewinnen. Dies ist insbesondere für die Verarbeitung und Nutzung von Wortfolgen von Bedeutung, beispielsweise bei der Erschließung lexikalischer Informationen für vielfältige Anwendungen.
Ziel der hier zusammengefaßten Untersuchungen ist die Evaluierung eines neuen Verfahrens zur automatischen Ermittlung von ungewichteten Begriffsfeldern fachspezifisch assoziierter Begriffe auf Basis lexikalisch verknüpfter Themen.
Inkunni stellt einen grundlegenden, vielseitig einsetzbaren Korrelationsalgorithmus dar, der auf der rekursiven Vernetzung lexikalisch verknüpfter Begriffe basiert, bezogen auf eng eingegrenzte thematische Zusammenhänge als Teil einer umfangreichen Datenbasis.
Untersucht wurden verschiedene Anwendungsgebiete. Alle weitergehenden Untersuchungen wurden auf naturwissenschaftliche Fachthemen konzentriert. Die in diesem Zusammenhang hier genauer vorgestellten Ergebnisse orientieren sich an verfügbarem lexikalisch verknüpftem Material.
Die ersten konkreten Überlegungen unter diesem Arbeitstitel stammen aus der Mitte der 1980er Jahre.
Hier werden zum Vergleich insbesondere einige Möglichkeiten und Probleme weniger komplexer, öffentlich verfügbarer und nicht fachlich und redaktionell geschlossener Informationsquellen bezüglich vergleichbarer Mechanismen behandelt.
Seit den Planungen zu einem Kompendium umfangreicher naturwissenschaftlicher Begriffsfelder seit etwa 1985 [LX-Projekt] wurden in den neunziger Jahren in verschiedenen Bereichen die inhaltlichen Grundlagen für die Ausnutzung sehr komplexer Fachzusammenhänge geschaffen [Rückemann 1995b], [Rückemann 1995a], [Rückemann 1994b], [Rückemann 1994a].
Eine Veröffentlichung des Datenmaterials und der entwickelten Anwendungen ist zu diesem Zeitpunkt nicht vorgesehen.
Um das Verfahren exemplarisch für öffentlich vorhandene, konventionelle Wortfolgen nutzen zu können, wurde in den letzten Jahren die Idee zu einem vielseitig einsetzbaren Korrelationsmechanismus für beliebige Begriffe an verschiedenen Datenbeständen ausgearbeitet.
Als optionale Methoden können beispielsweise phonetische, syntaktisch, korrelative Verfahren aber auch statistische oder andere Bewertungsmethoden zum Einsatz kommen.
Dazu existieren einige Beispiele für optionale Methoden [Rückemann 2003b], [Rückemann 2003c], [Rückemann 2002b], [Rückemann 2002a], [Rückemann 2003a].
Im Vergleich zum komplexen, hochqualitativen Datenmaterial wurde für öffentlich vorhandene Datenbestände ein sehr einfache aber effektive Implementierung des Verfahrens umgesetzt und erstmals im Jahr 2003 an verschiedenem Datenmaterial getestet und über mehrere Jahre fortlaufend gepflegt.
Die Hauptanforderung ist die Ausnutzung einer rekursiven Vernetzung lexikalisch verknüpfter Begriffe zur Gewinnung von zusätzlichen Informationen für weitergehende Anwendungen und Aussagen.
Dazu ist eine Extraktion aus eng eingegrenzten thematischen Zusammenhängen von besonderer Bedeutung.
Für eine flexible Nutzung ist der Aufbau von Fachzusammenhängen dazu unerläßlich.
Ein Algorithmus allein ist für einen solchen Einsatz vollständig unzureichend. Der Aufbau geeigneter Fachzusammenhänge ist keine ingenieurtechnische Aufgabe, sondern erfordert Expertenwissen, fachlich und theoretisch fundierte Arbeit.
Die Elemente der aufgebauten Fachzusammenhänge entsprechen in ihrer Minimalanforderung lexikalisch handhabbaren Bausteinen, die durch verschiedene Mechanismen verknüpft werden können.
Obwohl es sich bei jedem Element um einen umfassenden Beitrag handeln kann, wäre es grundfalsch in diesem Zusammenhang von ,,Wissen`` zu sprechen. Wissen kann nicht gespeichert oder vorhanden sein, weder in den ,,Tiefen des Internets`` noch in Computern, Datenbanken, Programmen oder ähnlichem, auch wenn solches aus Unkenntnis und zu Zwecken der Vermarktung in solchen Zusammenhängen gerade populistisch gerne in vorderster Linie genannt wird.
Aufgrund der gepflegten Fachzusammenhänge kann ein solches Verfahren sehr flexibel für bestimmte Einsatzgebiete angepaßt werden und eine gravierend höhere Qualität gegenüber Verfahren erreichen, die versuchen Relationen und Assoziation aus beliebigem, unbekanntem Datenmaterial im Netz einfach über Automatismen (Assoziator, Relator usw.) zu erhalten.
Vor allem hinsichtlich der Einsatzgebiete liegt die mit Abstand größte Bedeutung dabei im Aufbau und Ausbau der fachlichen Inhalte. Ohne diese ist letztendlich eine Verbesserung der erzielbaren Ergebnisse im Detail nicht erreichbar.
Der Aufwand der Schaffung der Inhalte wird von Zeit, Dauer, Umfang und Anspruch in jedem praktischen Fall einen unverhältnismäßig größeren Anteil haben, als alle Arbeiten an entsprechenden Algorithmen zusammengenommen.
Die Zusammenstellungen müssen sich für die Erreichbarkeit einer ausgewogenen und aktuellen Darstellung über längere Zeiträume hinziehen und weiterhin kontinuierlich gepflegt werden. Ein Abnehmen der Komplexität ist dabei nicht ohne, möglicherweise irreversiblen, Verlust von Information und Inhalten möglich.
Unter der Bezeichnung Wikipedia ist seit einigen Jahren ein Projekt bekannt, das beliebige ,,Inhalte`` auch ohne Quellenangaben im Netz verfügbar macht.
Lediglich aufgrund des Bekanntheitsgrades in der Öffentlichkeit sei in diesem Zusammenhang an dieser Stelle darauf näher eingegangen.
Die Datenbankinhalte von Wikipedia werden über ein semiautomatisches Verfahren (,,Wiki-Konzept``) gepflegt und nachgepflegt.
Dadurch kann, mit verhältnismäßig geringem Aufwand, auf technische Änderungen und Erweiterungen bei Wikipedia reagiert werden.
Die folgende Statistik stellt das Anwachsen der Inhalte und die Verwendbarkeit der Einträge für den speziellen Zweck mit den Suchergebnissen über die letzten Jahre dar. Dargestellt ist lediglich der für allgemeine Anwendungen verwendbare deutschsprachige Anteil.
Datum der | Größe | Anzahl | Anzahl | Anteil |
Verwendung | des Dumps | Einträge | nutzbarer E. | n.E. |
(ISO) | (MB) | (in Tausend) | (in Tausend) | (in Prozent) |
20031105 | 92 | 74 | 50 | 68 |
20031121 | 101 | 79 | 52 | 66 |
20040110 | 128 | 97 | 64 | 66 |
20040226 | 160 | 121 | 80 | 66 |
20040424 | 272 | 193 | 125 | 65 |
20040824 | 492 | 324 | 208 | 64 |
20050110 | 789 | 489 | 302 | 62 |
Das Wachstum der Datenbank schreitet derzeit noch ungemindert voran, dabei muß man aktuell etwa mit einem Wachstum von über 10 Prozent pro Monat (DE) rechnen.
Allerdings nimmt der Anteil nutzbarer Einträge leicht ab, da immer häufiger Zeichenkombinationen in den Seitennamen der Einträge verwendet werden, die z.B. nicht als Text-Eingabe von Nutzern sinnvoll verwendet werden können, beispielsweise @ / , ( ) * ? usw. Teilweise dienen diese der Kategorisierung, die in einem Eingabefeld nicht auf ergonomische Weise erfragt werden kann.
Zusammengefaßt sind allein in den letzten vier Monaten über 80000 nutzbare Einträge, d.h. handverlesene Treffer, hinzugekommen, die ausgewertet werden können. Diese Quantität ist auch der wesentliche Vorteil dieser Datenbasis.
Das Prinzip des Wiki-Konzepts und speziell die dadurch entstehenden Inhalte sind durchaus in vielerlei Hinsicht grundsätzlich kritisch zu hinterfragen, nicht nur, aber auch hinsichtlich der Verwendung für den hier beschriebenen Zweck.
Die Probleme sind aber nicht nur grundsätzlicher und inhaltlicher Natur, sondern liegen auch im gesellschaftlichen, politischen und organisatorischen Umfeld [Wikipedia 2004], [Heise Online 2003], [Heise Online 2004d], [Heise Online 2004c], [Heise Online 2004b], [Heise Online 2004a].
Um den Erfahrungen mit einem für diese Zwecke qualitativ hochwertigem Datenmaterial eine Entsprechung aus öffentlich verfügbaren Mitteln gegenüberzustellen bieten sich aus diesem Umfeld verfügbaren Materials als Datenbasis für verschiedene Implementierungen derzeit beispielsweise allgemeine enzyklopädische Inhalte, juristische Inhalte und Linux-relevante Inhalte an.
Inkunni-Implementierung | Datenbasis / Verfahren | Quelle | |
Wikunna | =: | Erschließung von Wikipedia mittels Inkunni | [Wikipedia] |
Jukunni | =: | Erschließung von Jura Wiki mittels Inkunni | [JuraWiki] |
Likunni | =: | Erschließung von Linux Wiki mittels Inkunni | [LinuxWiki] |
Eine darüber hinausgehende Zusammenfassung der Themenkreise ist unter besonderer Berücksichtigung redundanter aber auch unterschiedlich behandelter und dadurch nur quasi-redundanter Themen möglich.
Die Bezeichnung ,,Meta Wiki`` bzw. ,,MetaWiki`` ist bereits anderweitig vorbelegt [MetaWiki]. Eine übergeordnete Auswertung, basierend auf einer zusammengefaßten Datenbasis, die entsprechend als ,,HyperWiki`` bezeichnet wird, ist beispielsweise Hykunni.
Die zur Veranschaulichung umgesetzte Implementierung [Inkunni] nutzt einen sehr vereinfachten Algorithmus.
Die Inhalte sind durch fachbezogene Informationen erweitert und modifiziert und über ein korrigierendes Verfahren ergänzt. Auf dieses zusätzliche Verfahren soll hier nicht weiter eingegangen werden.
Der umgesetzte Algorithmus kann beispielsweise über eine Schnittstelle (CGI o.ä.) bereitgestellt werden.
Damit ist es möglich neben Rekursivität der Verknüpfungen und einer automatischen Aufbereitung extrahierter Informationen (Auto-HTML) auch weitere externe Quellen wie z.B. Verweise mit einzubeziehen.
Beispiel (funktionsfähig zum Zeitpunkt dieser Veröffentlichung):
http://jserv.rrzn.uni-hannover.de/meta/cgi-bin/inkunni.sh?Text
Erst bei einer anspruchsvolleren Datenbasis können nicht nur spezielle Funktionen ermöglicht werden, sondern auch Kategorien und weitere Eigenschaften [LX-Projekt] zu einer feineren Auflösung herangezogen werden.
Verweise auf Einträge der verteilten Quellen sind ebenso möglich, wie Verweise auf Suchergebnisse von Suchmaschinen.
Korrekturmöglichkeiten und Filter sind bei einem ernsthaften Betrieb unerläßlich, um Manipulationen jeglicher Art durch Dritte auszuschließen.
Auf der technischen Seite können Verteilte Systeme als Grundlage für den Aufbau einer gemeinsamen Struktur herangezogen werden. Über die technische Beschaffenheit solcher Systeme soll hier keine Aussage gemacht werden.
Die notwendige Organisation der Inhalte ist hingegen durch eine dezentrale bzw. fehlende Koordination nicht zu erreichen.
Die systemseitige Umsetzung beim Einsatz optionaler Methoden kann neben der Nutzung eines Verteilten Systems eine Lastverteilung und Lastbegrenzung erfordern, da der durch die interaktive Nutzung entstehende Rechenaufwand je nach umgesetztem Verfahren sehr hoch werden kann.
Hier können Methoden aus dem Bereich der Techniken, die beim Hochleistungsrechnen (High Performance Computing, HPC) Anwendung finden, in Kombination mit dem Prinzip des Grid Computing sowie Suchmaschinentechnologien sehr leistungsfähige modulare Systeme ermöglichen.
Die Organisationsstrukturen aus diesen Bereichen sind allerdings nicht für das Ziel anspruchsvoller wissenschaftlicher Inhalte geeignet. Hier müssen weitere geeignete zentrale Strukturen geschaffen werden.
Als minimales Beispiel ist hier auszugsweise die Entwicklung verschiedener Begriffe aus öffentlichen Quellen dargestellt. Die Anzahl integrierter Verweise zu einem Thema sind an ausgewählten Beispielen in folgender Tabelle aufgeführt. Das Korrelationsverfahren zur Ermittlung der Fachzusammenhänge verwendet eine zusätzliche Korrelationskorrektur.
Begriff | Jahr | ||
2003 | 2004 | 2005 | |
Deutschland | 19 | 391 | 498 |
Geowissenschaften | 79 | 103 | 109 |
Linux | 57 | 111 | 45 |
Veränderungen unterschiedlicher Art spiegeln sich auch in der Anzahl integrierter Verweise wider. Die Veränderungen der Anzahl integrierter Verweise hat mittelbaren Einfluß auf die Qualität der Ergebnisse. Die Ursachen der Entwicklung sind verschiedener Natur, beispielsweise
Die Auswirkungen solcher Aspekte können u.a. durch geordnete Redaktionsarbeit gesteuert werden.
Weiterführende Methoden erfordern nicht nur auf inhaltlicher Ebene, sondern auch bei der Implementierung des eingesetzten Verfahrens einen entsprechenden Aufwand.
Eine zusätzliche Berücksichtigung möglicher phonetischer Eigenschaften (phonetischer Komparator, [Rückemann 2002b]) setzt für spezielle Anwendungen beispielsweise eine Bestimmung der verwendeten Sprache und Mechanismen zur geeigneten Handhabung der damit verbundenen Informationen voraus.
Das Verfahren der ,,handverlesenen Netzwerke`` kann zur Lösung und Unterstützung verschiedener Aufgaben eingesetzt werden:
Das hier dargestellte Prinzip wird seit Jahren in den Naturwissenschaften und verwandten Fachbereichen in verschiedenen nicht öffentlich zugänglichen Anwendungen erfolgreich eingesetzt. Die vorgestellte öffentlich zugängliche Test-Implementierung zeigt einige Aspekte und grundlegende Möglichkeiten.
Handverlesene Netzwerke, Inkunni [Inkunni-Projekt], sind ein effizientes und effektives Mittel zur Abbildung und flexiblen Nutzung von komplexen Fachzusammenhängen.
Durch das Verfahren werden bereits mittels verhältnismäßig einfacher Algorithmen Anwendungen für ein vielfältiges Spektrum von Einsatzgebieten ermöglicht.
Gerade hinsichtlich der Naturwissenschaften ist die wichtigste Grundlage eine qualitativ hochwertige und umfangreiche Basis themenbezogener Fachinformationen.
Daten der öffentlich zugänglichen Wikipedia-Enzyklopädie, die allgemeine Themen umfaßt, sind hingegen nur sehr begrenzt für einen Einsatz mit anspruchsvollen Anwendungen geeignet.
Erst spezielle und umfangreiche Fachenzyklopädien [LX-Projekt] ermöglichen eine hinreichende Qualität und Verläßlichkeit. Für eine Nutzung bezogen auf Fachthemen ist eine geschlossene fachredaktionelle Bearbeitung aller Themen unerläßlich.