symlink.ch | Google etwas übereifrig

symlink.ch

FAQ
Mission
Über uns
Richtlinien

Moderation
Einstellungen
Story einsenden

Suchen & Index
Ruhmeshalle
Statistiken
Umfragen

Redaktion
Themen
Partner
Planet

XML | RDF | RSS
PDA | WAP | IRC
Symbar für Opera
Symbar für Mozilla

Freunde

Benutzergruppen
LUG Switzerland
LUG Vorarlberg
LUGen in DE
SIUG
CCCZH
Organisationen
Wilhelm Tux
FSF Europe
Events
LinuxDay Dornbirn
BBA Schweiz
CoSin in Bremgarten AG
VCFe in München
Menschen
maol
Flupp
Ventilator
dawn
gumbo
krümelmonster
XTaran
maradong
tuxedo

Google etwas übereifrig

Veröffentlicht durch maol am Dienstag 05. Maerz, 12:17
Aus der Privacy-anyone? Abteilung

Gestern berichtete Heise, dass Google gegen Richtlinien verstösst, indem sie entgegen eigenen Beteuerungen https Sites indexieren, sogar wenn sie durch robots.txt geschützt sind. Heute weiss nun ZDNet, dass die Beteuerungen betreffs https kurzerhand von der Site entfernt worden sind - aber noch im Google-Cache nachlesbar.

< Gefrorener Kasten aus Belgien | Druckausgabe | Stopp mit MS Windows XP und 2000? >

symlink.ch Login

extrahierte Links

ZDNet

Heise

Google gegen Richtlinien

kurzerhand von der Site entfernt

Mehr zu Internet

Auch von maol

Diese Diskussion wurde archiviert. Es können keine neuen Kommentare abgegeben werden.

missachtet robots.txt (Score:2)

Von bones am Tuesday 05. March, 13:04 MES (#1)
(User #481 Info) http://www.p-guhl.ch

Ist das sicher? Ich nutze nämlich diese Technologie - durchaus nicht aus versehen! Die Metatag-Methode habe ich bislang aber nicht eingebaut (vor allem kann ich damit das indexieren von nicht-HTML-Files ja AFAIK eh nicht verhindern).

Der Knochen

Schlechte Manieren... (Score:1)

Von P2501 am Tuesday 05. March, 13:43 MES (#2)
(User #31 Info) http://www.p2501.ch/

Da hätte ich jetzt von Google mehr Fingerspitzengefühl erwartet. Tja...

Andererseits find ich den https-Fall nicht wirklich tragisch, zumal die betroffenen Seiten ja zwar verschlüsselt, andererseits aber auch öffentlich zugänglich sind/waren. Geschützte Seiten können ja von Google nicht eingesehen, und damit auch nicht indexiert werden.

Re:Schlechte Manieren... (Score:2)

Von XTaran (symlink at deuxchevaux dot org) am Tuesday 05. March, 15:12 MES (#3)
(User #129 Info) http://abe.home.pages.de/

P2501 schrieb

Da hätte ich jetzt von Google mehr Fingerspitzengefühl erwartet.

Ich auch. Insbesondere frage ich mich, wieso sie bei HTTPS robots.txt ignorieren, bei http aber beachten. Die Routinen dafür sollten die gleichen sein, denn schließlich ist nur die Übertragungsart eine andere.

Andererseits find ich den https-Fall nicht wirklich tragisch, zumal die betroffenen Seiten ja zwar verschlüsselt, andererseits aber auch öffentlich zugänglich sind / waren.

Das einzige was da verschlüsselt wurde ist die Übertragung. Und da von einem Crawler keine persönlichen Daten übetragen werden, ist es eigentlich schnuppe, ob es jetzt nun HTTP oder HTTPS verwendet. Schlimm ist, daß die Robot Exclusion Protokolle mißachtet wurden.

Ich tippe mal schwer darauf, daß Google (löblicherweise) einen HTTPS-Crawler am testen ist (und deswegen wohl robots.txt ignoriert) und die Daten vorzeitig ins Echtsystem geraten. Wie sowas passieren konnte, frage ich mich allerdings noch. Ist eigentlich nicht die Art von Google.

--
Einer der Gnutella-Klone heißt Gnutoka, und ich frag mich, wann Gnusspli rauskommt...

Durchsuche symlink.ch:

Never be led astray onto the path of virtue.