Informationssysteme: Spam-Filter

Claus-Peter Rückemann
28. Aug. 2002

Kurzfassung:

Dieser Beitrag stellt einen Filter gegen unerwünschte Ergebnisse in den Treffern von Informationssystemen und speziell Suchmaschinen vor. Ein derartiger Filter wurde unter anderem mit den beschriebenen Funktionen realisiert und erfolgreich getestet.

Inhalt

Ziel

Ziel ist ein Mechanismus, um unerwünschte Ergebnisse bzw. ,,Treffer`` in der Ausgabe von Suchmaschinen auszufiltern. Am Beispiel der Meta-Suchmaschine MetaGer (http://metager.de) wurden die Tests durchgeführt.

Ursprünglich wurde der Begriff ,,Spam`` lediglich auf bestimmte, meist kommerziell ausgerichtete Mails bezogen, die man im Internet unaufgefordert zugesandt bekommt. Dies soll hier aber nicht Thema sein.

Der Begriff wurde hier dennoch verwendet, da es sich um unerwünschte Treffer, meist kommerzieller Ausrichtung, in der Ausgabe von Suchmaschinen handelt, die wahrscheinlich nicht im Interesse des Suchenden lagen.

Ein ,,wahrscheinlich`` ist hier angebracht, da es kein mathematisch hundertprozentiges Kriterium gibt, einen bestimmten Zusammenhang auszuschließen.

Aus diesem Grund müssen derartige Mechanismen immer optional sein, gerade bei dem Einsatz mit Suchmaschinen im Internet.

Unerwünschte Treffer

Die Frage was ein unerwünschter Treffer oder weniger präzise ,,Spam`` ist, hat keine allgemeingültige Antwort.

Ein Informationssystem oder eine Suchmaschine, die mittels Abfragebegriffen Inhalte in einem Datenbestand finden soll, arbeitet besser, je genauer die Abfragebegriffe mit den gefundenen Inhalten korrespondieren.

Wenn man jedoch davon ausgeht, daß alles, was ein Informationssystem oder eine Suchmaschine auf eine Abfrage liefert, ein mehr oder weniger brauchbarer Treffer ist, der mehr oder weniger mit der Abfrage in Beziehung steht, dann hat man sicherlich selten Bedarf für Filter.

Genau diese Ansicht machen sich jedoch auch Menschen X zunutze, um Dinge, die ihnen gewinnbringend sind oder anderweitig ihren Interessen dienen, bevorzugt in den Informationsfluß einzubringen.

Da beispielsweise bei der überwiegenden Mehrzahl von Suchmaschinen Texte im Mittelpunkt stehen, ist die einfachste Form Bezüge der eigenen Texte zu Abfragen herzustellen, daß die gewünschten Begriffe in den durchsuchten Dokumenten häufig verwendet werden.

Meist sichert das aber noch nicht die besondere Heraushebung der eigenen Seiten, also verstecken X beispielsweise auch andere Begriffe in den Dokumenten, meist da, wo sie der einfache Nutzer nicht sieht, mit schwarzer Schrift auf schwarzem Grund, in Kommentaren, usw.

Da diese Begriffe völlig ohne Zusammenhang zu dem Text sein können, kann X nun damit rechnen, daß zu vielen gesuchten Begriffen die eigenen Angebote angezeigt werden. In extremen Fällen - man könnte dies auch als eindeutigen Mißbrauch bezeichnen - werden eigene Seiten sogar zu jeder Zeichenkette gefunden.

Neben dieser Möglichkeit gibt es natürlich noch zahlreiche komplexere, die hier nicht weiter diskutiert werden sollen, aber auf das gleiche Ziel hinauslaufen.

Gemeinsam ist ihnen, daß so Mechanismen wie Suchmaschinen überlistet werden sollen, um Nutzer auf die eigenen Seiten zu locken, oder bestimmte Inhalte mit Vorrang zu präsentieren. Bei solchen Inhalten muß es sich nicht einmal zwangsläufig nur um Werbung handeln.

In welchem Umfang dies wirklich einen Nutzen für die Interessen der X bzw. der Eigentümer der Seiten hat ist nicht allgemein zu beurteilen.

Dennoch besteht aber das Problem und es wird in den nächsten Jahren auch nicht verschwinden.

Filter gegen unerwünschte Treffer

Gründe für den Einsatz

Ausschlaggebend ist die Erhöhung der Qualität der Ergebnisse von Informationssystemen und Suchmaschinen.

Dies trifft insbesondere für Abfragen zu, bei denen charakteristische Begriffe für mehrere unterschiedliche Themen verwendet werden, mehrdeutig sind oder gezielt in themenfremden Kontext verwendet werden.

Nicht selten lassen sich zu Abfragen unter den ersten hunderten von gefundenen ,,Ergebnissen`` keine neutralen und fachbezogenen Informationsangebote mehr finden. Stattdessen nutzen Trittbrettfahrer solche Begriffe für ihre Interessen. Selbst mit Funktionen wie dem gleichzeitigen Ausschluß bestimmter Begriffe in der Suche, ist dem Phänomen oft nicht mehr abzuhelfen.

Optionale, vordefinierte, gepflegte Filter können alle bekannten Problemfälle besser behandeln, als das der einzelne Nutzer könnte.

Mittels dieser Möglichkeit lassen sich daher leichter breitere Informationsangebote erschließen und die Kosten für den Nutzer reduzieren, bei gleichzeitiger Erhöhung der Qualität der Ergebnisse.

Gründe gegen den Einsatz

Aus Sicht des Nutzers ist ein grundlegender Aspekt, der den Einsatz eines Filters bedenklich macht, der von Dritten betrieben wird, die veränderte Wahrnehmung der Angebote und Inhalte im genutzten Medium.

Dieser Aspekt relativiert sich dadurch, daß die betreffenden Filter optional sind und vom Nutzer ausgeschaltet werden können.

Aus Sicht des Betreibers des Filters ist der gegebenenfalls nicht unerhebliche Aufwand bei der Pflege der Filtermechanismen einer der wichtigsten monetären Gründe gegen den Einsatz. Aus Sicht möglicher Finanzierungsquellen, heben sich Nachteile und Vorteile gegeneinander auf.

Es kommen aber gleichfalls rechtliche und ethische Gesichtspunkte bei der Filterung hinzu.

In gleichem Maße wie die Bedenken aus Sicht des Nutzers, verlieren letztere Aspekte durch rein optionale Filter an Gewicht.

Realisierung

Um eine höhere Flexibilität des Filtervorgangs bei gleichzeitig einfacher Bedienbarkeit und geringem Pflegeaufwand zu ermöglichen, sind mehrstufige Filter mit einer geringen Anzahl von Stufen gut geeignet.

Die genaue Wirkungsweise und das zugrundeliegende Konzept können an dieser Stelle nicht wiedergegeben werden. Dies würde dazu führen, daß wiederum der Aufwand steigen müßte, die realisierten Filter zu aktualisieren und das würde die Bestrebungen ad absurdum führen.

Einige Beispiele für ,,Inhalte``, auf welche die optionalen Filter zielen, sind:

,,Treffer`` zu unseriösen oder illegalen Inhalten.
Fremde Werbung.
Eigene Werbung.

Einige Beispiele, worüber diese ,,Inhalte`` technisch ermittelt werden können, sind:

Bestimmte Domänen.
Teile von URL's, Zeichenketten, generierte Teilstücke.
Inhalte bzw. Beschreibungen der ,,Treffer``.
Texte der Titel zu den ,,Treffern``.

Im folgenden werden die beiden übergeordneten Arten von Filtern beschrieben, die jeweils mehrere Stufen haben können.

Arten von Filtern

Spam-Filter: Dieser Filter reinigt die Trefferliste von denjenigen Einträgen, die mit einiger Wahrscheinlichkeit als unerwünscht erkannt werden können. Wird jedoch explizit mit betreffenden Begriffen oder Kriterien gesucht, dann werden die Ergebnisse nicht gefiltert. Es stehen zwei Stufen zur Verfügung, welche die unerwünschten Ergebnisse auf diese Weise aussortieren.
Spam-Restriktor: Dieser Filter filtert diejenigen ,,Treffer`` aus der Trefferliste aus, die durch die Filterkriterien als unerwünschte Einträge erkannt werden können. Dabei ist es unerheblich, ob mit solchen Begriffen oder Zusammenhängen gesucht wurde oder nicht, die unerwünschten Treffer werden herausgefiltert. Es stehen zwei Stufen zur Verfügung, welche die unerwünschten Ergebnisse auf diese Weise aussortieren.
Es ist dabei aber leider nicht immer zu vermeiden, daß auch einige nicht Spam-Treffer ausgefiltert werden.

Natürlich ist solch ein Mechanismus nie vollständig und es können selbstverständlich auch nicht alle Begriffe, die für irgend jemand nicht akzeptabel erscheinen, gefiltert werden. Laufende Erweiterungen und Veränderungen sind notwendig.

Produktionsversion

Zum Zeitpunkt des Erscheinens dieses Textes (August 2002) sind funktionsfähige Versionen des SPAM-Restriktors und des SPAM-Filters in einer MetaGer-Version sowie eine Kurze Dokumentation vorhanden unter: http://metager.de/index-spamdesign.html und http://metager.de/spamfiltern.html

Zusammenfassung und Ergebnisse

Die Filter sind absolut optional und arbeiten zuverlässig. Alle gängigen Formen von unerwünschten Einträgen können mit der realisierten Implementierung aus den Treffern entfernt werden.

Durch mehrstufige optionale Filter hat der Nutzer selbst die Wahl, ob er sich für oder gegen einen Filter entscheidet. Für bestimmte Abfragebegriffe ergibt sich erst durch den Einsatz der Filter eine brauchbare Trefferliste.

Im Standard sollte kein oder nur ein sehr schwacher Filter eingeschaltet sein, damit eine Einflußnahme durch Dritte (die Betreiber des Filters) soweit ausgeschlossen werden kann.

Der Pflegeaufwand für einen optimalen Einsatz ist nicht zu vernachlässigen, bei einem Nachpflegen nur bei akutem Bedarf reduziert sich der Aufwand drastisch.

Die Anforderungen an die zusätzliche Rechenleistung für die Filter steigen durch die unterschiedlichen Mechanismen sehr unterschiedlich, liegen jedoch bei dosiertem Einsatz im Rahmen von maximal einigen Prozent der gesamten Rechenleistung für einen Suchvorgang.