• Apfeltalk ändert einen Teil seiner Allgemeinen Geschäftsbedingungen (AGB), das Löschen von Useraccounts betreffend.
    Näheres könnt Ihr hier nachlesen: AGB-Änderung
  • Viele hassen ihn, manche schwören auf ihn, wir aber möchten unbedingt sehen, welche Bilder Ihr vor Eurem geistigen Auge bzw. vor der Linse Eures iPhone oder iPad sehen könnt, wenn Ihr dieses Wort hört oder lest. Macht mit und beteiligt Euch an unserem Frühjahrsputz ---> Klick

Wie wichtig robots.txt?

Lovecraft

Uelzener Rambour
Registriert
21.04.08
Beiträge
374
Hi,

wie wichtig erachtet ihr robots.txt? Ich habe mir mal die Richtlinien von Googles Webmasters angetan und beim
"Crawler-Zugriff" kann man sich ja problemlos eine robots.txt erstellen lassen für seine Website.

Vielerorts gehört "..kannste vergessen..."

Zugreifen tun die Crawler ja sowieso, die robots.txt sagt nochmal explizit das sie es dürfen und man kann Sachen ausschließen...

Ich würde hier mal gerne pro und contra zu robots.txt eröffnen...

LG L
 

Sir Q

Rheinischer Winterrambour
Registriert
12.04.05
Beiträge
923
Alle großen Suchmaschinen google, bing, yahoo, … halten sich an die robots.txt da diese ihnen im besten fall die arbeit erleichtert weil verzeichnisse explizit ausgeschlossen werden die unwichtig sind - oder aus gründen nicht indiziert werden sollen. Daher: robots.txt sollte immer vorhanden sein.
 

loopdj

Carola
Registriert
12.02.09
Beiträge
115
Die Datei ist nützlich, wenn du verhindern willst, dass bestimmte Bereiche oder Elemente deiner Seite in den Index der Suchmaschinen gelangen. Das ganze ist aber nicht zu verwechseln mit irgendwelchen Sicherheitsmechanismen, da jeder diese Datei als Klartext anschauen kann und dadurch verborgene Strukturen erkennbar werden.

So kann man z.B. Google davon abhalten, das Kundenlogin-Formular eines Shops zu indizieren, oder einen Ordner mit Bildern etc., weil man a) diese Sachen nicht öffentlich sichtbar im Googleindex haben will, aber auch b) um z.B. Content auszuschliessen, welcher nutzlos im Index wäre (z.B. Aufruf des Warenkorbs/Kundenkontos, da hier kein Content generiert wird).

Man hat also quasi die Kontrolle darüber, welche Teile einer Site ein Crawler durchsucht, und welche nicht. Die Crawler, welche mir bekannt sind, halten sich im übrigen an diese Datei.

Tipp: bei den gängigen Suchanbietern mal im Suchfeld (ohne Anführungszeichen) "site:domain-name.endung" eingeben, um einen Überblick zu erhalten, was der jeweilige Anbieter von dieser Seite im Index vorhält.
 

Lovecraft

Uelzener Rambour
Registriert
21.04.08
Beiträge
374
ok, wenn man aber jetzt keine Shops hat, kein Warenkorb etc. also nicht mit CMS gearbeitet hat, sondern seine website

komplett selbst gecodet hat vom Screendesign bis zum Endergebnis online, was soll man dort ausschließen?

Meine Frage zielt eher dahin, wenn die Crawler sowieso alles durchsuchen, wozu dient dann die robots.txt?

Anders ausgedrückt, wenn ich jetzt eine robots.txt erstelle, die alles durchsuchen darf, was die Crawler ja sowieso tun,

wozu dann die robots.txt?

Mir kommt es so vor als wenn die robots.txt dafür sorgt, das alles was so groß angekündigt wird auch wirklich ausgeführt wird.

Die Crawler durchsuchen sowieso alles ist so dahingesagt ohne tiefer nachzubohren..

Hier kommt jetzt die robots.txt ins Spiel und sagt nochmal explizit: aber auch machen!!!"

Und zwar auch bei alles durchsuchen ohne Einschränkungen.

Also ist sie grundsätzlich notwendig auch wenn's nur ein einfacher Zweizeiler ist.

Sehe ich das richtig?
 

loopdj

Carola
Registriert
12.02.09
Beiträge
115
Wenn du alles indexiert haben möchtest, brauchst du keine robots-Datei. Somit lautet die Antwort auf deine letzte Frage: nein, das siehst du falsch.
Wie erläutert, ist diese Datei zur Steuerung der Indexierung gedacht.
Wenn du nichts explizit verbietest, wird eben alles durchsucht und indexiert. Das tun die Crawler nur nicht, wenn eben dieser Vorgang durch die Anweisungen in der Datei gesteuert oder eingeschränkt werden. Daher eben die Beispiele eines CMS etc.
Die Datei ist grundsätzlich nicht notwendig um in den Index aufgenommen zu werden. Es ist keine explizite Erlaubnis oder Anweisung nötig für die Suchmaschine um eine Seite in den Index aufzunehmen.
Einfach andersrum denken: nicht "..robots.txt sagt nochmal explizit das sie es dürfen...", sondern eher der letzte Teil deiner Aussage trifft zu: "...und man kann Sachen ausschließen..".

Faustregel: wenn du nichts aus dem Index raushalten willst, brauchst du die robots.txt nicht.
 

_linx_

Kleiner Weinapfel
Registriert
04.01.09
Beiträge
1.125
Denke aber auch daran, dass sich nicht jeder Crawler an die robots.txt hält...