tutorials.de Buch-Aktion 05/2012
ERLEDIGT
NEIN
ANTWORTEN
2
ZUGRIFFE
817
EMPFEHLEN
  • An Twitter übertragen
  • An Facebook übertragen
AUF DIESES THEMA
ANTWORTEN
  1. #1
    breytex breytex ist offline Mitglied Silber
    Registriert seit
    Apr 2006
    Beiträge
    84
    Hallo zusammen!

    Ich habe ein Problem mit meinem CMS.
    Es laufen ca 50 Internetseiten auf einem zentralen CMS,
    dieser enthält einen, in PHP gebauten, Counter mit Statistiken etc.

    Seit ein paar Wochen fällt mir bei 3 der 50 seiten eine extrem falsche Statistik der Zugriffe auf. (Sowas wie 5000 Zugriffe pro Besucher (durchschnittlich)).

    Vermutung: Suchmaschienenbots

    Habe dann mal die Logs ausgewertet, und, wie vermutet, kommt bei den 3 besagten Seiten
    der Googlebot einfach alle 2 Sekunden. (3-4 IP-Adressen, welche 98% der Aufrufe verursachen).

    Habe nun überlegt ob ich die Zugriffe dieser Bots einfach aus den statistiken rausnehme,
    aber das ist ja keine gute Lösung auf dauer, da sich die IPs der Crawler ja auch nal ändern können.

    Gibt es eine Möglichkeit,, z.b. per robot.txt, den Suchmaschienen zu sagen, dass sie nur z.b. ein mal am Tag kommen sollen?

    Habe dazu im net leider nix gefunden :-/

    Vielen Dank für eure Hilfe
     

  2. #2
    Avatar von sheel
    sheel sheel ist offline Moderator
    tutorials.de Moderator
    Registriert seit
    Jul 2007
    Beiträge
    4.501
    Hi

    Filtere die Bots nicht nach IP, sondern nach "Browser"-Kennung raus.
    So, wie man darn IE/Firefox/etc. unterscheiden kann,
    haben auch Suchmaschinen typische Strings.

    Zum Einmal-am-Tag: Es gibt zwar HTML-mäßig ein revisit-after,
    aber daran hält sich inzwischen kein Bot mehr.
    Bin mir nicht sicher, ob es überhaupt irgendwann mal beachtet wurde.

    Gruß
     
    Netiquette (vA §15) und Nutzungsregeln (vA §4.8) einhalten! Programmcode in Codetags/Codeboxen.
    Sehr gute Beiträge bitte Bewerten (Stern darunter oder "Danke").
    "Funktioniert nicht" ist zu ungenau! Code, Fehlermeldungen, Verhalten des Programms, ...?

  3. #3
    Avatar von Dr Dau
    Dr Dau Dr Dau ist offline ich wisch hier durch
    Registriert seit
    Feb 2005
    Ort
    hinterm Mond gleich Links
    Beiträge
    6.160
    Blog-Einträge
    4
    Hallo!

    Zitat Zitat von breytex Beitrag anzeigen
    Seit ein paar Wochen fällt mir bei 3 der 50 seiten eine extrem falsche Statistik der Zugriffe auf. (Sowas wie 5000 Zugriffe pro Besucher (durchschnittlich)).

    Vermutung: Suchmaschienenbots

    Habe dann mal die Logs ausgewertet, und, wie vermutet, kommt bei den 3 besagten Seiten
    der Googlebot einfach alle 2 Sekunden. (3-4 IP-Adressen, welche 98% der Aufrufe verursachen).
    Was mich vermuten lässt dass Dein Counter keine IP-Sperre hat.
    Bei einer IP-Sperre wird die IP samt Zugriffszeit zwischengespeichert (z.b. in einer Datenbank) und bei jedem erneuten Zugriff verglichen.
    Wenn zwischen den einzelnen Zugriffszeiten eine vorgegebene Zeit (z.b. 60 Sekunden) unterschritten wird, wird der Zugriff nicht erfasst.
    Bei jedem erneuten Zugriff wird die zwischengespeicherte Zugriffszeit aktuallisiert.
    Wenn nun also z.b. im Sekundentakt auf die Seite zugegriffen wird, wird der Zugriff nur einmal in Deiner Statistik erfasst.
    Erst wenn der letzte Zugriff die vorgegebene Zeit her ist, wird er erneut in der Statistik erfasst.
    So kann also auch ein verfälschen der Statistik durch User zumindest eingedämmt werden (der Finger auf der F5-Taste bringt also nicht viel ).

    Zitat Zitat von breytex Beitrag anzeigen
    Gibt es eine Möglichkeit,, z.b. per robot.txt, den Suchmaschienen zu sagen, dass sie nur z.b. ein mal am Tag kommen sollen?
    Über die robots.txt (wird mit "s" geschrieben) kannst keine Zeit angeben.
    Siehe auch: http://de.selfhtml.org/diverses/robots.htm

    Wie sheel schon gesagt hat, senden Bots eine Art Browserkennung mit.
    Diese kannst Du auch in besagter IP-Sperre mit berücksichtigen (Du kannst die IP-Sperre also auch ganz allgemein verwenden).
    Wenn Dir die Kennungen der Bots bekannt sind, und Du diese irgendwo speicherst, könntest Du bei der Zeitspanne der IP-Sperre auch zwischen Bots und User unterscheiden.

    Grundsätzlich sein noch angemerkt:
    Jeder Bot kann, genauso wie ein Browser, seine Kennung verfälschen (bei mir gibt sich z.b. wget nicht als wget zu erkennen, sondern als Opera ).
    Ein Bot soll sich an die robots.txt halten..... zwingen kann man ihn dazu jedoch nicht.
    Eine IP-Sperre sollte eine vernünftige Zeitspanne haben, da es ja auch User/Bots mit statischer IP gibt und/oder über einen Proxy-Server zugreifen.
    Man muss bei allen Techniken also einen "gesunden" Mittelweg finden.
    Auf jedenfall mach es aber mehr Sinn verschiedene Techniken zu kombinieren, als sich auf eine allein zu verlassen.

    Gruss Dr Dau
     
    Schri-Schra-Schrödi *g*
    mehrspaltiges/zeiliges Seitenlayout mit DIV's und CSS
    Dinge, die mit Tabellen besser klappen als mit CSS
    Ausgabe von Datum/Zeit unabhängig von der Server Zeitzone [php]
    Meine Links zum Thema Linux (Last update: 29.10.2011)
    Kein Busen ist so flach wie das Niveau dieser Party!
    ----
    Alte Weisheit: wer uns in den Arsch kriecht wird beschissen!
    ----
    Ich habe 3 Kinder und kein Geld!
    Warum kann ich nicht keine Kinder haben und 3 Geld?! (Homer Jay Simpson)

Ähnliche Themen

  1. Googlebot ist doof
    Von deintag85 im Forum HTML & XHTML
    Antworten: 9
    Letzter Beitrag: 01.06.09, 16:43
  2. Farben verfälscht.
    Von eFFeKt im Forum Photoshop
    Antworten: 2
    Letzter Beitrag: 10.07.08, 03:28
  3. Javascript in Php verfälscht
    Von NoUse4aNick im Forum PHP
    Antworten: 3
    Letzter Beitrag: 29.06.08, 15:26
  4. Googlebot Hostname, Referer?
    Von josDesign im Forum Hosting & Webserver
    Antworten: 3
    Letzter Beitrag: 23.01.08, 09:51
  5. Googlebot Zugriff verweigern
    Von whatever76 im Forum HTML & XHTML
    Antworten: 4
    Letzter Beitrag: 03.01.06, 13:21