Informationssysteme: Entwicklungen aus dem DIUS-Projekt, POST und GET für Metasuchmaschinen

Claus-Peter Rückemann
04. Jan. 2005


Inhalt

 

Einleitung

Zahlreiche Dienste nutzen für die Kommunikation in WWW zwei grundlegende Methoden, POST oder GET [1] [2] [3] [4].

Eine dritte, seltener verwendete Methode ist PUT, mit der Daten auf einem Server verändert werden können. In der Regel können dazu spezielle eigene Implementierungen zum Einsatz kommen, die für diese Betrachtung vernachlässigt werden können.

Dieses Dokument beschreibt die Implementierung von POST und GET für Suchmaschinen insbesondere Metasuchmaschinen.

Geschichte

Methoden dieser Art zur Kommunikation in WWW finden seit vielen Jahren, insbesondere seit Mitte der ersten Hälfte der neunziger Jahre des 20. Jahrhunderts, Anwendung für unterschiedlichste Informationssysteme [5] [6] [7] [8] [9].

Suchmaschinen nutzen für ihre Suchfunktionen in der Regel nur POST oder GET. Beide Methoden haben Vorteile und Nachteile. Eine Unterstützung beider Methoden für eine Suchmaschine kann durchaus wünschenswert sein, bedeutet aber für die Betreiber der Suchmaschinen oftmals einen unverhältnismäßig hohen Aufwand bezüglich Entwicklung, Pflege, Stabilität, Sicherheit und Dokumentation.

Allerdings ermöglicht eine GET­basierte Schnittstelle in der Regel eine einfachere Steuerung und Automatisierung, z.B. für externe Werkzeuge, über Lesezeichen (,,Bookmarks``) oder aus Hilfsmitteln in graphischen Oberflächen (,,Toolbar``) heraus.

Aus dem DIUS-Projekt [10] wurde daher 1999 eine Metasuchmaschine (,,Meta-Suchmaschine``) auf Basis von POST und GET neu entwickelt und mit meta.get seit 2001 in der bestehenden Suchmaschine DiuS dius eingesetzt [11].

Die im folgenden bis 2004 eingesetzten Entwicklungsstufen waren meta.cpr und meta.gern.

Die zeitgleich verfügbare Metasuchmaschine MaGer [12] verfügt zum Vergleich über keine GET-Schnittstelle. Zum Zeitpunkt der Veröffentlichung dieses Textes hat jedoch die Planung zu einer Umstellung begonnen. Diese Schnittstelle könnte für weitere Suchmaschinen bereitgestellt werden, die aus dem DIUS-Projekt entstanden sind.

Die Nutzung für Suchmaschinen wird aufgrund der zusätzlichen Möglichkeiten derzeit zunehmend auch wirtschaftlich interessant.

Auch der Metasuchmaschine MetaGer, deren Teile seit Jahren unter mehreren Entwicklern am RRZN konzipiert und geschaffen wurden, fehlt z.B. bis heute eine derartige Schnittstelle.

Für die Verwendung mit Suchmaschinen und speziell mit Metasuchmaschinen sind bestimmte Funktionen notwendig. Die zu den folgenden Parametern notwendigen Algorithmen sind mit der POST- und der GET-Schnittstelle verwendbar.

Parameter

Als Parameter stehen in der gegenwärtigen Implementierung folgende Name/Werte-Paare zur Verfügung:

Name Wert Standard Bedeutung
eingabe     Zu suchende Begriffe
  [Zeichenkette]   Folge der Suchbegriffe, verkettet mit +
mm     Modifikation/Art der Suche
  and * Alle Zeichenketten sollen im Dokument vorkommen
  and-stop   Alle Zeichenketten suchen, aber Zeichenketten nach ! ausschließen
  or   Mindestens eine der Zeichenketten im Dokument
  string   Zeichenkette als String in Titel oder Kurzbeschreibung
maxtreffer     Max. Anzahl Treffer
  10   10 Treffer in Trefferliste
  20   ...
  30    
  40    
  50    
  60    
  70    
  80    
  90    
  100    
  200 *  
  500    
  9999999    
time     Sekunden maximale Suchzeit
  1   1 Sekunde maximale Suchzeit
  3 * ...
  5    
  10    
  20    
  30    
  60    
  100    
  200    
spfi (Version 1)     Spam-Filter
  1 [*] nicht aktiv
  2 [ ] schwach
  3 [ ] restriktiv
  4 [ ] sehr restriktiv
  5 [ ] extrem restriktiv
spfi (Version 2)     Spam-Filter
  1 [*] nicht aktiv
  2 [ ] aktiv
  3 [ ] extrem
spre     Spam-Restriktor
  1 [*] nicht aktiv
  2 [ ] aktiv
  3 [ ] extrem
textmenge     Maximale Anzahl Dubletten pro Ergebnis
  2   Maximal 2 Dubletten pro Ergebnis/Treffer
  3   ...
  4 *  
  5    
  6    
  10    
  20    
  30    
wissRank     wissenschaftliche Quellen höher bewerten
  yes * (subjektive Vorauswahl)
  no   (keine subjektive Vorauswahl)
QuickTips     Cache
  yes   QuickTips / ohne Beschleuniger
  beschleuniger * Mit Beschleuniger / ohne QuickTips
sprueche     Sprüche 
  yes * Sprüche auf Ausgabeseite anzeigen
  no   keine Sprüche auf Ausgabeseite anzeigen
newWindow     Verhalten beim Öffnen von Links (Fenster öffnen)
  yes * Treffer bei Anklicken in neuem Fenster öffnen
  no   Treffer bei Anklicken in aktuellem Fenster öffnen
showList     Trefferzahlen
  yes   Trefferzahlen der Suchdienste anzeigen
  no (*) Trefferzahlen der Suchdienste nicht anzeigen
linkTest     Linküberprüfung
  no * Keine Linküberprüfung (schnell Ergebnisse)
  yes   Teste Existenz und sortiere nach Relevanz
  yesSort   Teste Existenz und sortiere (aktuellste zuerst)
sorturls     Ausgabe alphabetisch nach Webservern clustern
sorturls_kompakt     ... und nur in Kompakt-Darstellung ausgeben
check_time 3 (*) (Zeit für Test Existenz)
phokom     Phonetische Suchvorschläge (bei wenigen Treffern)
acoon no ... [ ] Acoon, http://www.acoon.de/
allesklar no ...   AllesKlar, http://www.allesklar.de/
alexana no ... [ ] Alexana, http://www.alexana.de/
altavista yes ... [ ] AltaVista, http://www.altavista.digital.com/
allthepix no ... [ ] Bildfinder, http://bildfinder.de
allthesound no ... [ ] Sound, http://www.allthefiles.de
alltheweb no ... [ ] AllTheWeb, http://www.alltheweb.com
atsearch no ...   atsearch, http://atsearch.at
austronaut no ... [ ] AustroNaut, http://www.austronaut.at/
barengoo no ... [ ] Barengoo, http://www.barengoo.de/
blitzsuche yes ... * Tricus, http://www.blitzsuche.de/
campus-search no ... [ ] Campus Search, http://www.campus-search.de/
crawler no ...   Abacho.de, http://abacho.de/
crossbot no ...   Crossbot, http://www.crossbot.de/
datawizard no ... [ ] Data Wizard, http://www.data-wizard.de/
deja no ... [ ] Usenet, http://www.deja.com/usenet/
dino no ... [ ] Dino, http://www.dino-online.de/suche.html
dmoz no ...   Dmoz, http://www.dmoz.org/World/Deutsch/
dmozint yes ... * Dmoz, http://www.dmoz.org/
ebay no ...   eBay, http://pages.ebay.de/index1.html
espotting no ... [ ] Espotting, http://www.espotting.com/
etoc no ...   ETOC, http://tiborder.gbv.de/SET=1/TTL=1/LNG=DU/DB=2.56/
excite no ... [ ] Excite.de, http://www.excite.de/
fastbot yes ... * Fastbot, http://www.fastbot.de/
fastbot_int no ...   Fastbot.com, http://www.fastbot.com/
fireball no ... [ ] Fireball, http://www.fireball.de/
firstsfind yes ... * FirstsFind, http://www.firstsfind.de/
firstsfind_int no ...   FirstsFind.com, http://www.firstsfind.com/
fixx no ... [ ] Fixx, http://www.fixx.de/
fportal yes ... * Forschungsportal, http://forschungsportal.net/
gein yes ... * GEIN, http://www.gein.de
google no ... [ ] Google, http://www.google.de/
harvest yes ... * UniHannover, http://harvest.rrzn.uni-hannover.de/
hotbot no ... [ ] Hotbot, http://www.hotbot.com/
hurrade no ...   Hurra.de, http://www.hurra.de/
infoseek yes ... [*] Infoseek, http://www.infoseek.de/
intersearch no ...   Abacho.at, http://abacho.at/
juraforum no ...   Juraforum, http://www.juraforum.de/
kolibri no ... [ ] Kolibri, http://www.kolibri.de/
loc no ... [ ] Library of Congress, http://lcweb.loc.gov/
lycos yes ... [*] Lycos, http://www.lycos.de/
mediastreet no ... [ ] MediaStreet, http://www.mediastreet.de/
mirago yes ... * Mirago, http://www.mirago.de/
msn no ...   MSN, http://search.msn.com/
myshopping no ... [ ] Myshopping, http://www.myshopping.de/
Nachrichten yes ... * Nachrichten, http://romso.de/
netfind no ... [ ] Netfind, http://netfind.aol.com/
netguide no ... [ ] Netguide, http://netguide.de/
nhf yes ... [*] NHF
northernlight no ... [ ] NorthernLight, http://www.northernlight.com/
onlfav no ... [ ] Online-Favoriten, http://www.online-favoriten.de/
overture yes ... * Overture, http://www.overture.de
pepesearch no ... [ ] Pepesearch, http://www.pepesearch.com/
plaff no ...   Plaff, http://www.plaff.de
qualigo yes ... [*] QualiGO.de, http://www.qualigo.de
qualigo-ch yes ... * QualiGO.ch, http://www.qualigo.ch
sharelook no ...   Sharelook, http://www.sharelook.de/
speedfind no ... [ ] Speedfind, http://www.speedfind.de/
suchknecht no ... [ ] Suchknecht, http://www.suchknecht.at/
suchmali no ... [ ] Suchmaschine.li, http://www.suchmaschine.li/
tiborder no ...   TIBORDER, http://tiborder.tib.uni-hannover.de/
tonline yes ... * T-Online, http://www.t-online.de/
t-online yes ... [*] T-Online, http://www.t-online.de/service/index/homsvx03.htm
tricus no ... [ ] Tricus, http://www.tricus.com/
vondo no ...   Vondo.de, http://www.vondo.de/
walhello no ... [ ] Walhello, http://www.walhello.com/
web no ... [ ] Web.de, http://www.web.de/
wiki yes ... * Wikipedia, http://de.wikipedia.org/
wisenut no ... [ ] Wisenut, http://www.wisenut.com/
witch yes ... * Witch, http://www.witch.de/
yahoo no ...   Yahoo, http://de.yahoo.com/
yippy no ... [ ] Yippy, http://www.yippy.de/
yoodle no ...   Yoodle, http://www.yoodle.ch/

Die angegebenen Standardeinstellungen sind die, die zum Zeitpunkt der Erstellung dieses Dokuments gültig sind. Mit runden Klamern eingeklammerte Angaben ,,()`` zu Standardeinstellungen bedeuten, daß die Parameter nicht explizit gesetzt sind. Mit eckigen Klammern eingeklammerte Angaben ,,[]`` zu Standardeinstellungen bedeuten, daß die Parameter veraltet oder derzeit nicht verfügbar sind. Die scheinbar große Anzahl der Suchdienste, die nicht oder nicht mehr über die Schnittstelle verfügbar sind resultiert aus dem langen Zeitraum, über den sich die Auflistung erstreckt. Aus Gründen der Vollständigkeit wurden viele dieser Suchdienste in die Liste aufgenommen.

Bei den Suchdiensten ist jeweils nur yes oder no zur besseren Übersichtlichkeit hinsichtlich der Standardwerte aufgeführt. Es ist immer auch der alternative Wert möglich.

Nicht alle Parameter müssen zu jeder Zeit verfügbar sein. Gerade die verfügbaren Suchdienste unterliegen in der Regel stetigen Änderungen. Welche Standardeinstellungen jeweils aktuell gelten, kann dem Quellentext der jeweiligen Startseite entnommen werden, soweit die betreffende Einstellung dort verwendet wird.

Dies gilt ebenso für die verfügbaren Parameter bzw. Namen.

In der Regel sind bei den Werten yes und 1 sowie no und 0 miteinander identisch.

Beispiele

Basis-URL:

http://mserv.rrzn.uni-hannover.de/cgi-bin/meta/dius?

Name/Werte-Paare:

  1. Abfrage nach ,,GNU und Linux`` an eine Suchmaschine:
    eingabe=GNU+Linux&maxtreffer=9999999&yahoo=1
  2. Abfrage nach ,,Linux`` an drei Suchmaschinen:
    eingabe=Linux&mm=and&maxtreffer=1000&sprueche=1&witch=1&msn=1&lycos=1
  3. Abfrage (URL-kodiert, vom Klienten umgesetzt beispielsweise UTF-8, ISO Latin) unter Ausschluß der Begriffe nach ,,!``:
    eingabe=Claus+Peter+R%FCckemann!Kunst%20Kultur&mm=and-stop&maxtreffer=100&witch=1&yahoo=1
  4. Extremes Beispiel (die einzelnen Name/Werte-Paare sind zur besseren Übersichtlichkeit durch Zeilenumbrüche getrennt)
    eingabe=Claus+Peter+Rueckemann&
    mm=and&
    maxtreffer=100&
    time=10&
    textmenge=30&
    wissrank=no&
    QuickTips=yes&
    sprueche=1&
    newWindow=yes&
    showList=yes&
    linkTest=no&
    sorturls=no&
    allesklar=1&
    atsearch=1&
    blitzsuche=1&
    crawler=1&
    crossbot=1&
    dmoz=1&
    dmozint=1&
    ebay=1&
    etoc=1&
    fastbot=1&
    fastbot_int=1&
    firstsfind=1&
    firstsfind_int=1&
    fportal=1&
    gein=1&
    harvest=1&
    hurrade=1&
    intersearch=1&
    juraforum=1&
    mirago=1&
    msn=1&
    Nachrichten=1&
    overture=1&
    plaff=1&
    qualigo-ch=1&
    sharelook=1&
    tiborder=1&
    tonline=1&
    vondo=1&
    wiki=1&
    witch=1&
    yahoo=1&
    yoodle=1

Literatur

1
W3C: CGI: Common Gateway Interface, 2004. URL: http://www.w3.org/CGI/.

2
McCool, R.: The common gateway interface, Software available from the National Center for Supercomputing Applications at the University of Illinois in Urbana-Champaign. UIUC, 1995.

3
Ivler, J.M.: CGI Developer's Resource, Web Programming with Tcl and Perl. Prentice-Hall (PTR/PH), 1997.

4
Guelich, S., S. Gundavaram und G. Birznieks: CGI - Programmierung mit Perl. O'Reilly and Associates, 2001. Deutsche Ausgabe der 2. Auflage.

5
Rückemann, C.-P.: Möglichkeiten für zukünftige Suchdienste und Suchmaschinen im Internet. Münster [Vortrag], 1993.

6
Rückemann, C.-P.: POST und GET sowie PUT für netzbasierte wissenschaftliche Informationssysteme. Münster, [Vortrag], 1994.

7
Rückemann, C.-P.: Online Recherche- und Informationssystem der Geowissenschaften und Naturwissenschaften. [Internet], 1996. URL: http://www.unics.uni-hannover.de/cpr/x/bib/Rueckemann_1996_Naturwissenschaften.bib (BibTeX Eintrag).

8
Rückemann, C.-P.: POST und GET sowie PUT für Informationssysteme und Suchmaschinen. Münster, [Vortrag], 1999.

9
Rückemann, C.-P.: Suchhilfe für Informationssysteme und Suchmaschinen. [Internet], 2003. URL: http://www.unics.uni-hannover.de/cpr/x/publ/2003/suchhilfe/suchhilfe.html (Text).

10
Rückemann, C.-P.: DIUS-Projekt. [Internet], 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005. URL: http://www.unics.uni-hannover.de/cpr/x/rprojs/de/index.html#DIUS (Projekt-Informationen).

11
Rückemann, C.-P.: Informationssysteme: DiuS - Die unkomplizierten Suchmaschinen. [Internet], 1993, 1995, 1999, 2001, 2004, 2005. URL: http://mserv.rrzn.uni-hannover.de/cgi-bin/meta/dius/ (DiuS), URL: http://www.unics.uni-hannover.de/cpr/x/rprojs/de/index.html#DIUS (Projekt-Informationen).

12
Rückemann, C.-P.: Informationssysteme: MaGer. Die unkomplizierte Metasuchmaschine. [Internet], 2004. URL: http://www.metager.de/mager (MaGer), URL: http://www.unics.uni-hannover.de/cpr/x/rprojs/de/index.html#DIUS (Projekt-Informationen), URL: http://www.unics.uni-hannover.de/cpr/x/publ/2004/mager/mager_schnappschuss_20040630.png) (Schnappschuß), URL: http://www.unics.uni-hannover.de/cpr/x/publ/2004/mager/mager_schnappschuss_20040712.png) (Schnappschuß), URL: http://www.unics.uni-hannover.de/cpr/x/publ/2004/mager/mager_schnappschuss_css_20040712.png) (Schnappschuß) (CSS).


© 2004, 2005 Dr. Claus-Peter Rückemann, RRZN Hannover / E-Mail [--] / Tel. [--]
vi betrieben.
Letzte Änderung: Di, 4. Jan. 2005, 22:19:42 MEZ