Unser gestriger Artikel zur Datenerfassung von Suchmaschinen erfordert einen Nachtrag. Wir haben inzwischen das Verhalten des Javascript-Codes von Google etwas näher betrachtet und das Ergebnis ist sehr interessant. Google wertet bei der Suchseitenausgabe den Browsertyp aus und liefert unterschiedliche Ergebnisse. Wird mit dem Firefox gesucht und www.google.de aufgerufen, so wird bei erlaubtem Javascript eine Suchseite ausgegeben, die sehr stark Ajax nutzt und die Suchergebnisse mittels Ajax einblendet, was die Analyse sehr stark erschwert. Das Ergebnis ist jedoch, dass bei einem Klick auf einen Link (Links- oder Rechtsklick ist hierbei egal) der Link ausgetauscht wird. Das bedeutet, dass Ihnen z.B. http://www.frankfurt.de vom Browser als Link angezeigt wird, sobald Sie jedoch klicken wird der Link vertauscht und aufgerufen wird der neue, ausgetauschte Link.
Bei der anderen Sucheseite von Google, die Sie bisher über http://www.google.de/search erreichen, wird ebenfalls Ajax eingesetzt, jedoch offensichtlich anderer Javascript-Code, ein Austausch des Links findet nicht statt.
Besucht man http://www.google.de/ mit einem anderen Browser als Firefox oder ändert im Firefox die Browserkennung, so wird von Google die Suchseite „http://www.google.de/search“ ausgeliefert und der Linkaustausch findet ebenfalls nicht statt.
Die Problematik der Linkmanipulation mittels Javascript ist prinzipbedingt und wird in der Firefox-Gemeinschaft schon seit 2003 diskutiert. Nun ist die Besucherüberwachung nicht neu und lässt sich durch die Manipulation des Javascript-Codes oder des Abschalten von Javascript verhindern. Sorge macht hingegen die Entwicklung zur Ajax-Verwendung und der damit verbundenen Notwendigkeit von Javascript.
Es ist eine Überlegung wert, einen Proxy zu entwickeln, der hierbei zur Anonymisierung dient, da die klassischen Anonymisierungsdienste wie Tor etc., die ja lediglich die IP-Adresse verändern jedoch die Inhalte nicht beachten, hier keine Lösung darstellen.
Fazit
Da der Scriptcode von den Suchmaschinenbetreibern leicht geändert werden kann, kann eine individuelle Filterung des aus Benutzersicht unerwünschten Codes mittels z.B. Greasemonkey leicht dazu führen, dass diese Filterung nicht mehr greift. Somit bleibt als Lösung nur, Javascript für die betroffenen Seiten abzuschalten. Hier ist jedoch zu befürchten, dass Google & Co. in Zukunft auf reine Ajax-Seiten umstellen werden und die Suchergebnisse ohne Javascript nicht mehr angezeigt würden.