P2501 schrieb
Da hätte ich jetzt von Google mehr Fingerspitzengefühl erwartet.
Ich auch. Insbesondere frage ich mich, wieso sie bei HTTPS robots.txt ignorieren, bei http aber beachten. Die Routinen dafür sollten die gleichen sein, denn schließlich ist nur die Übertragungsart eine andere.
Andererseits find ich den https-Fall nicht wirklich tragisch, zumal die betroffenen Seiten ja zwar verschlüsselt, andererseits aber auch öffentlich zugänglich sind / waren.
Das einzige was da verschlüsselt wurde ist die Übertragung. Und da von einem Crawler keine persönlichen Daten übetragen werden, ist es eigentlich schnuppe, ob es jetzt nun HTTP oder HTTPS verwendet. Schlimm ist, daß die Robot Exclusion Protokolle mißachtet wurden.
Ich tippe mal schwer darauf, daß Google (löblicherweise) einen HTTPS-Crawler am testen ist (und deswegen wohl robots.txt ignoriert) und die Daten vorzeitig ins Echtsystem geraten. Wie sowas passieren konnte, frage ich mich allerdings noch. Ist eigentlich nicht die Art von Google.
--
Einer der Gnutella-Klone heißt Gnutoka, und ich frag mich, wann Gnusspli rauskommt...
|