symlink.ch
Wissen Vernetzt - deutsche News für die Welt
 
symlink.ch
FAQ
Mission
Über uns
Richtlinien

Moderation
Einstellungen
Story einsenden

Suchen & Index
Ruhmeshalle
Statistiken
Umfragen

Redaktion
Themen
Partner
Planet

XML | RDF | RSS
PDA | WAP | IRC
Symbar für Opera
Symbar für Mozilla

Freunde
Benutzergruppen
LUG Switzerland
LUG Vorarlberg
LUGen in DE
SIUG
CCCZH
Organisationen
Wilhelm Tux
FSF Europe
Events
LinuxDay Dornbirn
BBA Schweiz
CoSin in Bremgarten AG
VCFe in München
Menschen
maol
Flupp
Ventilator
dawn
gumbo
krümelmonster
XTaran
maradong
tuxedo

 
Suchmaschine für Websites nach Google-Art
Veröffentlicht durch tbf am Montag 20. Oktober, 07:30
Aus der embedded-crawler Abteilung
Internet IM Feigling schreibt "Einige der Symlink-Leser dürften bereits vor dem Problem gestanden haben, eine Suchfunktion für ihre Websites zu implementieren. Die unschlagbar schnellste Lösung ist wohl noch immer ein CGI-Frontend für Google's SiteSearch. Allerdings dürfte es die meisten Surfer verwirren, warum sie nun auf Google gelandet sind. Für Anspruchsvolle bliebe also nur der Weg über eine lokale Suchmaschine auf dem eigenen Webserver á la ht://Dig, oder aber sogar eine komplett selbst progammierte Lösung.

Doch Suchmaschinen können ein komplexes Thema sein, vor allem dann, wenn die Anfragen sinnvolle Ergebnisse liefern sollen. Dass sich manch einer dabei schon überschätzt hat, zeigen die vielen Eigenentwicklungen auf diversen Sites. Den von Google gewöhnten Standard erreichen dabei nur wenige, und so wird das Suchen auf diesen Sites schnell zum Frusterlebnis.

Aber es gibt Abhilfe! Die funktioniert zwar nach dem Prinzip von Google's SiteSearch, hat aber den nicht zu unterschätzenden Vorteil, dass man Templates anlegen kann. Die Suchergebnisse können somit beliebig dem Aussehen der eigenen Seite angepasst werden, und das vor allem ohne die gehasstliebte Frame-Technik. Der Surfer landet zwar bei jeder Suche auf einer externen Seite, bekommt dies jedoch nur selten mit. Anbieter einer solchen Lösung ist Atomz.com.

Wer Atomz.com bereits kennt, braucht hier nicht mehr weiterlesen, sondern kann gleich dazu übergehen, seinen Erfahrungsbericht zu posten. Für alle anderen folgt eine kleine Einführung, die dazu dienen soll, die Suchmaschine von Atomz.com in weniger als einer Stunde für die eigene Website zu konfigurieren.

Atomz.com's Wettbewerbsvorteil ist, dass sie ihren Service für kleinere Sites (max. 500 Unterseiten) komplett kostenlos anbieten. Einzige Bedingung ist das Einblenden eines kleines Logos bei den Suchergebnissen.

Die Anmeldeprozedur für den zeitlich unbegrenzten Testaccount mag für europäische Verhältnisse etwas langatmig sein, man bekommt dafür aber eine ganze Menge. Das License Agreement sollte man in jedem Fall kurz überfliegen, um etwaige Konfliktsituationen zu vermeiden. So dürfen zum Beispiel pr0n-Webmaster keine Atomz.com-Produkte verwenden.

Hat man sich angemeldet (man benötigt eine gültige E-mail Addresse, an die Login+Passwd geschickt wird), muss man nach dem erstmaligen Login (per https!) einen Account für seine Website anlegen (man darf später sogar weitere Website-Accounts hinzufügen). Dabei gilt es, die Formulare vollständig auszufüllen. Spätestens bei der Telefon-Nummer sollte man jedoch ein klein wenig lügen. Nun hat man den aufwendigsten Part bereits hinter sich gebracht, und man darf sich mit der angenehm spartanisch wirkenden Konfigurations-Oberfläche anfreunden. Kleine Hilfetexte beseitigen jegliche Orientierungsprobleme. Wer bereits die Konfigurations-Seiten von 1&1 (Puretec) kennt, wird diesen Kontrast zu schätzen wissen.

Als erstes sollte man unter 'Index' überprüfen, ob bei der Website-Indezierung Probleme auftraten, z.B. zu vielen Unterseiten. Meist sind daran CGI-Skripte schuld, an die Argumente übergeben werden. Somit entstehen eine Menge Phantom-Seiten, die unter Umständen gar nicht indiziert werden sollen. Regulieren kann man das jedoch unter 'Options'->'URL MASKS', dazu später mehr. Unter 'Index'->'Full Index Schedule' kann man bestimmen, an welchem Wochentag (+Uhrzeit) Atomz.com seinen Crawler vorbeischicken soll.

Im 'Template'-Bereich kann man zwischen vorgefertigen Designs auswählen (sinnvoll, wenn die Suchergebnisse im Frame angezeigt werden sollen, siehe 'Options'->'Frames'), oder aber seine Freiheit im 'Template'->'Template-Editor' voll und ganz ausleben. Hierbei sollte man unbedingt ein <meta http-equiv="content-type" content="text/html; charset=UTF-8"> im <head>-Bereich einfügen (bzw. den Zeichensatz, den man bei der Anmeldung angegeben hat), da es sonst zu den altbekannten Zeichensatz-Massakern kommmt (abhängig von den lokalen Browser-Einstellungen). Beim Erstellen eines individuellen Templates muss man natürlich sämtliche relativen Pfade (Stylesheet, Images, HyperRefs usw.) durch absolute Pfade ersetzen, oder aber einen <base>-HyperRef setzen (z.B. <base href="http://symlink.ch/">), so dass die relativen Pfade weiterhin ihre Gültigkeit behalten. Mittels 'TEST' kann man jederzeit die Früchte seiner Arbeit begutachten. Ist man mit seinem Template weitesgehend zufrieden, klickt man auf 'Publish Changes', und die Änderungen werden aktiv. Wer möchte, kann auch das Hervorheben von Suchergebnissen anpassen ('Templates'->'Context Highlight'), z.B. durch ein unaufdringliches <b style="color:red;text-decoration:blink">...</b>.

Nun wird es Zeit, die Suchfunktionen auf seiner Site anzubieten. Dazu kann man unter 'HTML' die entprechenden Code-Snipplets per cut'n'paste einbinden. Das 'Advanced Search' Formular mag etwas chaotisch anmuten, und es steht natürlich jedem frei, da ein wenig mehr Übersichtlichkeit hineinzubringen. Die Übereifrigen unter euch können die Formulare auch lokalisieren und z.B. als Kommentar hier wiederveröffentlichen.

Diejenigen unter uns, die ein Faible für komplizierte Website-Strukturen haben, werden wohl nicht umhin kommen, unter 'Options' die Menüpunkte 'URL Entrypoints' bzw. 'URL Masks' abzuklappern. Letzteres ist von Nöten, wenn Atomz.com beim Indizieren von skriptgesteuerten Seiten Amok läuft und dabei das 500-Seiten-Limit überschreitet. 'URL Masks' funktioniert dabei ähnlich wie die Anweisungen in einer 'robots.txt': Per 'exclude URI' schliesst man komplette Unterverzeichnisse aus, während ein 'exclude regexp ^.*\?..*$' Atomz.com anweist, keine Seiten mit Skriptargumenten zu indezieren. Zudem beinhaltet diese Seite eine Zusammenfassung über reguläre Ausdrücke, die erheblich kürzer ist als 'man re_syntax'

Zum Schluß wäre da noch der 'Reports'-Bereich für die Statistik-Freaks (Grüsse an maol!), wo sämtliche verwendeten Suchbegriffe und die dazu gefundenen Ergebnisse aufgeführt werden.

Alles in allem werden es eure Website-Besucher zu schätzen wissen, wenn sie eine Suchfunktion vorfinden, die auch tatsächlich funktioniert. Warum Google die Kunden für dieses Geschäftsfeld nur im Big Business sieht, bleibt mir schleierhaft. Aber vielleicht ist das auch besser so."

Generalamnestie für Cracker in UK | Druckausgabe | Finnen wollen Kids total überwachen  >

 

 
symlink.ch Login
Login:

Passwort:

extrahierte Links
  • maol
  • Atomz.com
  • License Agreement
  • angemeldet
  • Login
  • IM Feigling
  • Google's SiteSearch
  • ht://Dig
  • Mehr zu Internet
  • Auch von tbf
  • Kolumnen
  • Virtueller Warenkorb
  • Simpsons Webumfrage
  • Geeks und ihre Weltanschauungen, Teil 12: Modellbahnen
  • Nettigkeiten mit CSS und JS
  • USB Quo Vadis?
  • Wenn Datenschutz hindert
  • iTunes vs Metallica
  • Geeks und ihre Weltanschauungen, Teil 11: (Un-) Ordnung
  • Netzradios und Musikdownloads
  • Alles fuer'n A....
  • Diese Diskussion wurde archiviert. Es können keine neuen Kommentare abgegeben werden.
    Google Site Search anpassen (Score:1)
    Von SrmL am Monday 20. October, 08:24 MET (#1)
    (User #17 Info) http://dur.ch/
    Googles Site Search lässt sich in gewissen Grenzen (Logo, Farben) auch den eigenen Bedürfnissen anpassen. Hab ich mir mal für meine Seiten gemacht.
    Ein Beispiel (Score:2)
    Von pfr am Monday 20. October, 09:42 MET (#2)
    (User #4 Info) http://www.math.ethz.ch/~pfrauenf/
    Suche bei Goretex
    --
    Kühe geben keine Milch, die Bauern nehmen sie ihnen weg!
    Selbstprogrammiert schmeckts am besten! (Score:2)
    Von gurix (mgraf AFFENSCHWANZ iframe PUNKT ch) am Tuesday 21. October, 07:31 MET (#3)
    (User #664 Info) http://www.iframe.ch
    Wer über ein CMS verfügt, hat in der Regel schon eine Suchmaschine integriert, die ihren Zweck erfüllt. Wer aber selbst was gecodet hat, kann in der Regel auch die Suchfunktion selber programmieren. Die Praxis Zeigt sich oft, dass es nicht immer eine Volltextsuche à la google sein muss. Problematisch wird es erst, wenn Wörter wie "Rundschleifer" vor kommen, dann sollte man dieses Wort theorethisch auch mit "Schleifer" finden.
    Was mir persönlich aber am meisten Kopfzerbrechen bereitet, ist die Indexierung von PDF, Word etc. Wer solche funktionen braucht, greift besser auf fertigen Produkte zurück.
    Fazit: Für kleinere Webseiten ist weniger oft mehr.
    http://www.iframe.ch

    Linux User Group Schweiz
    Durchsuche symlink.ch:  

    Never be led astray onto the path of virtue.
    trash.net

    Anfang | Story einsenden | ältere Features | alte Umfragen | FAQ | Autoren | Einstellungen