Claus-Peter Rückemann
04. Jan. 2005
Zahlreiche Dienste nutzen für die Kommunikation in WWW zwei grundlegende Methoden, POST oder GET [1] [2] [3] [4].
Eine dritte, seltener verwendete Methode ist PUT, mit der Daten auf einem Server verändert werden können. In der Regel können dazu spezielle eigene Implementierungen zum Einsatz kommen, die für diese Betrachtung vernachlässigt werden können.
Dieses Dokument beschreibt die Implementierung von POST und GET für Suchmaschinen insbesondere Metasuchmaschinen.
Methoden dieser Art zur Kommunikation in WWW finden seit vielen Jahren, insbesondere seit Mitte der ersten Hälfte der neunziger Jahre des 20. Jahrhunderts, Anwendung für unterschiedlichste Informationssysteme [5] [6] [7] [8] [9].
Suchmaschinen nutzen für ihre Suchfunktionen in der Regel nur POST oder GET. Beide Methoden haben Vorteile und Nachteile. Eine Unterstützung beider Methoden für eine Suchmaschine kann durchaus wünschenswert sein, bedeutet aber für die Betreiber der Suchmaschinen oftmals einen unverhältnismäßig hohen Aufwand bezüglich Entwicklung, Pflege, Stabilität, Sicherheit und Dokumentation.
Allerdings ermöglicht eine GETbasierte Schnittstelle in der Regel eine einfachere Steuerung und Automatisierung, z.B. für externe Werkzeuge, über Lesezeichen (,,Bookmarks``) oder aus Hilfsmitteln in graphischen Oberflächen (,,Toolbar``) heraus.
Aus dem DIUS-Projekt [10] wurde daher 1999 eine Metasuchmaschine (,,Meta-Suchmaschine``) auf Basis von POST und GET neu entwickelt und mit meta.get seit 2001 in der bestehenden Suchmaschine DiuS dius eingesetzt [11].
Die im folgenden bis 2004 eingesetzten Entwicklungsstufen waren meta.cpr und meta.gern.
Die zeitgleich verfügbare Metasuchmaschine MaGer [12] verfügt zum Vergleich über keine GET-Schnittstelle. Zum Zeitpunkt der Veröffentlichung dieses Textes hat jedoch die Planung zu einer Umstellung begonnen. Diese Schnittstelle könnte für weitere Suchmaschinen bereitgestellt werden, die aus dem DIUS-Projekt entstanden sind.
Die Nutzung für Suchmaschinen wird aufgrund der zusätzlichen Möglichkeiten derzeit zunehmend auch wirtschaftlich interessant.
Auch der Metasuchmaschine MetaGer, deren Teile seit Jahren unter mehreren Entwicklern am RRZN konzipiert und geschaffen wurden, fehlt z.B. bis heute eine derartige Schnittstelle.
Für die Verwendung mit Suchmaschinen und speziell mit Metasuchmaschinen sind bestimmte Funktionen notwendig. Die zu den folgenden Parametern notwendigen Algorithmen sind mit der POST- und der GET-Schnittstelle verwendbar.
Als Parameter stehen in der gegenwärtigen Implementierung folgende Name/Werte-Paare zur Verfügung:
Name | Wert | Standard | Bedeutung |
eingabe | Zu suchende Begriffe | ||
[Zeichenkette] | Folge der Suchbegriffe, verkettet mit + | ||
mm | Modifikation/Art der Suche | ||
and | * | Alle Zeichenketten sollen im Dokument vorkommen | |
and-stop | Alle Zeichenketten suchen, aber Zeichenketten nach ! ausschließen | ||
or | Mindestens eine der Zeichenketten im Dokument | ||
string | Zeichenkette als String in Titel oder Kurzbeschreibung | ||
maxtreffer | Max. Anzahl Treffer | ||
10 | 10 Treffer in Trefferliste | ||
20 | ... | ||
30 | |||
40 | |||
50 | |||
60 | |||
70 | |||
80 | |||
90 | |||
100 | |||
200 | * | ||
500 | |||
9999999 | |||
time | Sekunden maximale Suchzeit | ||
1 | 1 Sekunde maximale Suchzeit | ||
3 | * | ... | |
5 | |||
10 | |||
20 | |||
30 | |||
60 | |||
100 | |||
200 | |||
spfi (Version 1) | Spam-Filter | ||
1 | [*] | nicht aktiv | |
2 | [ ] | schwach | |
3 | [ ] | restriktiv | |
4 | [ ] | sehr restriktiv | |
5 | [ ] | extrem restriktiv | |
spfi (Version 2) | Spam-Filter | ||
1 | [*] | nicht aktiv | |
2 | [ ] | aktiv | |
3 | [ ] | extrem | |
spre | Spam-Restriktor | ||
1 | [*] | nicht aktiv | |
2 | [ ] | aktiv | |
3 | [ ] | extrem | |
textmenge | Maximale Anzahl Dubletten pro Ergebnis | ||
2 | Maximal 2 Dubletten pro Ergebnis/Treffer | ||
3 | ... | ||
4 | * | ||
5 | |||
6 | |||
10 | |||
20 | |||
30 | |||
wissRank | wissenschaftliche Quellen höher bewerten | ||
yes | * | (subjektive Vorauswahl) | |
no | (keine subjektive Vorauswahl) | ||
QuickTips | Cache | ||
yes | QuickTips / ohne Beschleuniger | ||
beschleuniger | * | Mit Beschleuniger / ohne QuickTips | |
sprueche | Sprüche | ||
yes | * | Sprüche auf Ausgabeseite anzeigen | |
no | keine Sprüche auf Ausgabeseite anzeigen | ||
newWindow | Verhalten beim Öffnen von Links (Fenster öffnen) | ||
yes | * | Treffer bei Anklicken in neuem Fenster öffnen | |
no | Treffer bei Anklicken in aktuellem Fenster öffnen | ||
showList | Trefferzahlen | ||
yes | Trefferzahlen der Suchdienste anzeigen | ||
no | (*) | Trefferzahlen der Suchdienste nicht anzeigen | |
linkTest | Linküberprüfung | ||
no | * | Keine Linküberprüfung (schnell Ergebnisse) | |
yes | Teste Existenz und sortiere nach Relevanz | ||
yesSort | Teste Existenz und sortiere (aktuellste zuerst) | ||
sorturls | Ausgabe alphabetisch nach Webservern clustern | ||
sorturls_kompakt | ... und nur in Kompakt-Darstellung ausgeben | ||
check_time | 3 | (*) | (Zeit für Test Existenz) |
phokom | Phonetische Suchvorschläge (bei wenigen Treffern) | ||
acoon | no ... | [ ] | Acoon, http://www.acoon.de/ |
allesklar | no ... | AllesKlar, http://www.allesklar.de/ | |
alexana | no ... | [ ] | Alexana, http://www.alexana.de/ |
altavista | yes ... | [ ] | AltaVista, http://www.altavista.digital.com/ |
allthepix | no ... | [ ] | Bildfinder, http://bildfinder.de |
allthesound | no ... | [ ] | Sound, http://www.allthefiles.de |
alltheweb | no ... | [ ] | AllTheWeb, http://www.alltheweb.com |
atsearch | no ... | atsearch, http://atsearch.at | |
austronaut | no ... | [ ] | AustroNaut, http://www.austronaut.at/ |
barengoo | no ... | [ ] | Barengoo, http://www.barengoo.de/ |
blitzsuche | yes ... | * | Tricus, http://www.blitzsuche.de/ |
campus-search | no ... | [ ] | Campus Search, http://www.campus-search.de/ |
crawler | no ... | Abacho.de, http://abacho.de/ | |
crossbot | no ... | Crossbot, http://www.crossbot.de/ | |
datawizard | no ... | [ ] | Data Wizard, http://www.data-wizard.de/ |
deja | no ... | [ ] | Usenet, http://www.deja.com/usenet/ |
dino | no ... | [ ] | Dino, http://www.dino-online.de/suche.html |
dmoz | no ... | Dmoz, http://www.dmoz.org/World/Deutsch/ | |
dmozint | yes ... | * | Dmoz, http://www.dmoz.org/ |
ebay | no ... | eBay, http://pages.ebay.de/index1.html | |
espotting | no ... | [ ] | Espotting, http://www.espotting.com/ |
etoc | no ... | ETOC, http://tiborder.gbv.de/SET=1/TTL=1/LNG=DU/DB=2.56/ | |
excite | no ... | [ ] | Excite.de, http://www.excite.de/ |
fastbot | yes ... | * | Fastbot, http://www.fastbot.de/ |
fastbot_int | no ... | Fastbot.com, http://www.fastbot.com/ | |
fireball | no ... | [ ] | Fireball, http://www.fireball.de/ |
firstsfind | yes ... | * | FirstsFind, http://www.firstsfind.de/ |
firstsfind_int | no ... | FirstsFind.com, http://www.firstsfind.com/ | |
fixx | no ... | [ ] | Fixx, http://www.fixx.de/ |
fportal | yes ... | * | Forschungsportal, http://forschungsportal.net/ |
gein | yes ... | * | GEIN, http://www.gein.de |
no ... | [ ] | Google, http://www.google.de/ | |
harvest | yes ... | * | UniHannover, http://harvest.rrzn.uni-hannover.de/ |
hotbot | no ... | [ ] | Hotbot, http://www.hotbot.com/ |
hurrade | no ... | Hurra.de, http://www.hurra.de/ | |
infoseek | yes ... | [*] | Infoseek, http://www.infoseek.de/ |
intersearch | no ... | Abacho.at, http://abacho.at/ | |
juraforum | no ... | Juraforum, http://www.juraforum.de/ | |
kolibri | no ... | [ ] | Kolibri, http://www.kolibri.de/ |
loc | no ... | [ ] | Library of Congress, http://lcweb.loc.gov/ |
lycos | yes ... | [*] | Lycos, http://www.lycos.de/ |
mediastreet | no ... | [ ] | MediaStreet, http://www.mediastreet.de/ |
mirago | yes ... | * | Mirago, http://www.mirago.de/ |
msn | no ... | MSN, http://search.msn.com/ | |
myshopping | no ... | [ ] | Myshopping, http://www.myshopping.de/ |
Nachrichten | yes ... | * | Nachrichten, http://romso.de/ |
netfind | no ... | [ ] | Netfind, http://netfind.aol.com/ |
netguide | no ... | [ ] | Netguide, http://netguide.de/ |
nhf | yes ... | [*] | NHF |
northernlight | no ... | [ ] | NorthernLight, http://www.northernlight.com/ |
onlfav | no ... | [ ] | Online-Favoriten, http://www.online-favoriten.de/ |
overture | yes ... | * | Overture, http://www.overture.de |
pepesearch | no ... | [ ] | Pepesearch, http://www.pepesearch.com/ |
plaff | no ... | Plaff, http://www.plaff.de | |
qualigo | yes ... | [*] | QualiGO.de, http://www.qualigo.de |
qualigo-ch | yes ... | * | QualiGO.ch, http://www.qualigo.ch |
sharelook | no ... | Sharelook, http://www.sharelook.de/ | |
speedfind | no ... | [ ] | Speedfind, http://www.speedfind.de/ |
suchknecht | no ... | [ ] | Suchknecht, http://www.suchknecht.at/ |
suchmali | no ... | [ ] | Suchmaschine.li, http://www.suchmaschine.li/ |
tiborder | no ... | TIBORDER, http://tiborder.tib.uni-hannover.de/ | |
tonline | yes ... | * | T-Online, http://www.t-online.de/ |
t-online | yes ... | [*] | T-Online, http://www.t-online.de/service/index/homsvx03.htm |
tricus | no ... | [ ] | Tricus, http://www.tricus.com/ |
vondo | no ... | Vondo.de, http://www.vondo.de/ | |
walhello | no ... | [ ] | Walhello, http://www.walhello.com/ |
web | no ... | [ ] | Web.de, http://www.web.de/ |
wiki | yes ... | * | Wikipedia, http://de.wikipedia.org/ |
wisenut | no ... | [ ] | Wisenut, http://www.wisenut.com/ |
witch | yes ... | * | Witch, http://www.witch.de/ |
yahoo | no ... | Yahoo, http://de.yahoo.com/ | |
yippy | no ... | [ ] | Yippy, http://www.yippy.de/ |
yoodle | no ... | Yoodle, http://www.yoodle.ch/ |
Die angegebenen Standardeinstellungen sind die, die zum Zeitpunkt der Erstellung dieses Dokuments gültig sind. Mit runden Klamern eingeklammerte Angaben ,,()`` zu Standardeinstellungen bedeuten, daß die Parameter nicht explizit gesetzt sind. Mit eckigen Klammern eingeklammerte Angaben ,,[]`` zu Standardeinstellungen bedeuten, daß die Parameter veraltet oder derzeit nicht verfügbar sind. Die scheinbar große Anzahl der Suchdienste, die nicht oder nicht mehr über die Schnittstelle verfügbar sind resultiert aus dem langen Zeitraum, über den sich die Auflistung erstreckt. Aus Gründen der Vollständigkeit wurden viele dieser Suchdienste in die Liste aufgenommen.
Bei den Suchdiensten ist jeweils nur yes oder no zur besseren Übersichtlichkeit hinsichtlich der Standardwerte aufgeführt. Es ist immer auch der alternative Wert möglich.
Nicht alle Parameter müssen zu jeder Zeit verfügbar sein. Gerade die verfügbaren Suchdienste unterliegen in der Regel stetigen Änderungen. Welche Standardeinstellungen jeweils aktuell gelten, kann dem Quellentext der jeweiligen Startseite entnommen werden, soweit die betreffende Einstellung dort verwendet wird.
Dies gilt ebenso für die verfügbaren Parameter bzw. Namen.
In der Regel sind bei den Werten yes und 1 sowie no und 0 miteinander identisch.
Basis-URL:
http://mserv.rrzn.uni-hannover.de/cgi-bin/meta/dius?
Name/Werte-Paare:
eingabe=GNU+Linux&maxtreffer=9999999&yahoo=1
eingabe=Linux&mm=and&maxtreffer=1000&sprueche=1&witch=1&msn=1&lycos=1
eingabe=Claus+Peter+R%FCckemann!Kunst%20Kultur&mm=and-stop&maxtreffer=100&witch=1&yahoo=1
eingabe=Claus+Peter+Rueckemann& mm=and& maxtreffer=100& time=10& textmenge=30& wissrank=no& QuickTips=yes& sprueche=1& newWindow=yes& showList=yes& linkTest=no& sorturls=no& allesklar=1& atsearch=1& blitzsuche=1& crawler=1& crossbot=1& dmoz=1& dmozint=1& ebay=1& etoc=1& fastbot=1& fastbot_int=1& firstsfind=1& firstsfind_int=1& fportal=1& gein=1& harvest=1& hurrade=1& intersearch=1& juraforum=1& mirago=1& msn=1& Nachrichten=1& overture=1& plaff=1& qualigo-ch=1& sharelook=1& tiborder=1& tonline=1& vondo=1& wiki=1& witch=1& yahoo=1& yoodle=1