Wichtige Frage zu Robots.txt

Psychodelics · 2. Januar 2010

Hi ,

Ich habe schon einige Beiträge dazu durch gelesen und es heißt immer wieder das selbe, "Die Robots-txt dient dazu Dateien und Verzeichnisse vor Bots zu schützen"

In der Theorie würde ich behaupten, man muss ja nur Dateien und Ordner schützen, auf die man nicht direkt verlinkt hat. Sondern content-Dateien, wie *.php-Dateien, die per include in die main hinzugefügt werden. Weil ja gerade die Dateien Fehlermeldungen auswerfen könnten, wenn sie "ohne" die main Datei aufgerufen werden. Ja, und vllt gibt es hier und da noch n paar Leute die irgendwelche LOG-Files auf diese Weise schützen.

Also, mein Problem, das ich habe:

Wäre ich ein Bot, dann würde ich doch gerade genau die Dateien und Ordner mit einem DISALLOW zu erst nach wichtigen Informationen durchforsten. Weil nur genau da irgendwas sein wird, was ich nicht sehen darf. Und meint ihr wirklich, dass der Google-Bot sich von diesen Dateien fern hält?

Also ich schütze Verzecihnisse zusätzlich noch mit *htaccess und verlinke auch nirgendswo die Ordner und Dateien, damit erst gar nicht ein Bot nur da in die Nähe kann. Was bringt mir also die Robots.txt wirklich, weil das, was ich damit kann, kann ich auch mit Meta-Befehlen und ner Sitemap oder per PHP machen, um zum Beispiel zu verhindern, dass meine Kontaktdaten direkt bei Google angezeigt werden. Handelt es sich hierbei um eine weltweite Verschwörung seiten Googles? Das würde sich nämlich mit deren neuem Projekt Lockerz decken, das soweit ich weiß, von denen ist und nur zur Informationsbeschaffung dient.

Aber mal Spaß bei Seite. Korrigiert mich, wenn ich mich irre, aber ich kann mir gut vorstellen, dass so Piraten-Bots im Internet überwiegend sich nur durch die Robots.txt fressen, um an geheime Daten zu kommen.

Also meine Frage, ist was an meiner Theorie dran in puncto DISALLOW oder hat jemand sonst irgendwelche Insider-Informationen.

Gruß, Adnan

Gruß, Adnan

mafiamix · 2. Januar 2010

Hallo,

soweit ich weiß sind diese robots.txt nur dazu da, dass die Suchmaschinen diese Dateien nicht ansehen und somit keine internen Daten speichern. Das heißt z. B. den Ordner "images/".
Wenn dieser Ordner mal ganz oben steht, was bringt es dem Besucher, wenn er dann eine leere Index-Seite vor sich hat, obwohl er evtl. das 1. Suchergebnis angeklickt hat?
Bin mir aber nicht sicher ob das wirklich so komplett stimmt.

Aber die robots.txt wird doch nicht nur von Google, sondern auch von vielen anderen Suchmaschinen verwendet, oder?
Man sollte außerdem die Datei bzw. das Verzeichnis trotzdem schützen. Interne Daten aus der Datenbank sollten aber sowieso nicht ohne htaccess oder anderem Login ausgegeben werden und Bilderordner kann man dann auch einfach mit einer index.html schützen.

Wichtige Frage zu Robots.txt

Psychodelics

Erfahrenes Mitglied

mafiamix

Mitglied

Neue Beiträge