Wider allen Schutzmaßnahmen im Google-Cache gelandet...

TIMS_Ralf · 4. November 2015

Hallo Leute und Profis,

mal bitte eine Einschätzung von Profis über folgende - recht komplexen - Sachverhalte: ich habe eine WEB-Seite auf eigenem WEB-Server (Root) mit folgenden Schutzmaßnahmen:

1. serverseitiger .htaccees - Passwortschutz ( 1 User / Passwort für ~ 20 Leute )
2. Alle "Links" linken in compiliertem JavaScript (kein HTML A HREF...)
3. META TAGs: no follow, index / expires=0 .... etc. ...
4. robots.txt: disallow /* für alles
5. sitemap.xml: nur für 1. Startseite ( Homepage )

Bis hier sollte sicher sein, dass für Robots, Crawlers etc. kein Weg ins Innere der site führen sollte / dürfte. Schon alleine Punkt 2 (JS-Links) sollte alleine ausreichen stellen, da Robots keine JS-Interpreter haben, also gar kein Javascript ausführen können, um ins Innere (hinter den htaccess-Schutz)
1. Frage: Oder doch...?

Weiterer Schutz im Innern:
6. Enthaltene Daten ( Adressen, Namen...) im Inneren der site (also hinter htaccess-Schutz, JS-Links...) wurden ausschießlich mit JS erzeugt - es stehe also keine Daten im HTML oder Reintext.

7. Scripts, die Daten in ein Doc schreiben, prüfen vorher ab ob die WEB-Seite aus einem Online-Cache kommt (Google, Bing...). Falls JA werden keine Daten sondern eine simulierte Fehlermeldung ins Doc geschrieben.

8. Über 3 Monate hinweg war nichts in den Suchmaschine zu finden - auch nicht bei Google. Dann tauchten plötzlich und nur vereinzelt die inneren, geschützten Seiten bei Google auf.

9. Dies auch NUR bei Google - in keiner anderen Suchmaschine ( Bing, Ask, Yaldex, Yahoo, AOL ) tauchten Treffer auf.

10. "Links" zu Detailseiten eines Adresse werden ebenfalls nur durch JS erzeugt, dabei erhält die URL einen Paramter, der mit

Javascript:

window.location.pathname
// bzw.
window.location.search

erzeugt und ausgewertet wird. Dennoch tauchten speziell diese URLs in den Suchtreffern und im Cache von Google auf, wie z.B.: http://www.meine-domain.de/seiten/adressen/details?ds=5

11. Schließlich folgte ein "Spießrutenlauf":
Ich löschte alle gefundenen Such-Treffer aus GoogleBot und GoogleCache. Jeweils 2 Tage später tauchten 1-2 neue Treffer auf. Ich löschte diese erneut, prompt erschienen 2 Tage später wieder 1-2 Treffer aus. Das wiederholte sich 5 mal - und jedesmal waren es die gleiche Adresse nur mit unterschiedlichen URL-Patrameter.
Nachdem ich dann rein präventiv alle Links mit allen möglichen Parametern löschte ( ?ds=1, ?ds=2, ?ds=3, .... ds=20 ) ist nun seit 1 Woche Ruhe.

Zugegeben: MEIN Versäumnis:
Im Bewußtsein / Glauben, dass die Schutzmaßnahmen 1-5 ausreichten, habe ich die inneren WEB-Seiten NICHT weiter durch META-TAGs geschützt...

2. Frage:
Ist es möglich, dass "jemand" die inneren, geschützten Seiten manuell bei Google anmeldet - und Google dann diese URL ungeprüft aufnimmt (also entweder nicht auf htaccess prüft oder den htaccess-Schutz umgehen kann).
Das wäre dann natürlich ein ziemlich fetter Hammer !?

3. dumm daher gefragt:
Oder weshalb / wie konnten die Inneren Seiten - dann auch nur "Stück-für-Stück" (Spießrutenlauf) - sonst in GoogleBot und GoogleCache auftauchen? Wie gesagt: Auch nur bei Google!?

Nochmal: Der Click auf den Suchtreffer führte zum htacess-Zugangsschutz - soweit okay. Aber ein Click in den GoogleCache zeigte die Innere Seite.

Last but not least:
Es gibt noch einen weiteren Aspekt, den ich noch nicht nennen möchte um neutrale und komptenten Antworten zu gewährleisten... Neben den Antworten hier, kann mich zu dieser Sache auch gerne jemand persönlich schreiben - ggf. bitte eine Kontaktnachricht in mein Postfach stellen.

Soo... ufff...
Danke für Zeit und Mühe (das gelesen zu haben

)
Ralf

sheel · 4. November 2015

Hi

von oben nach unten:

a) Wenn du bei deiner Seite so sehr aufs richtige Tippen aufpasst wie hier, wundert mich nichts

.htaccees => .htaccess
no follow => nofollow

b) "nofollow,index" erlaubt kein Folgen, aber indizieren.
"nofollow,noindex" ist was Anderes.

c) Cachezeitsteuerung stört Google wenig.
Der Google-Cache soll ja per Definition nicht immer die aktuellste Seitenversion liefern,
sondern bei gespeicherten, original nicht mehr erreichbaren Seiten eine Alternative sein.

d) Robots sind nicht automatisch von JS-Verwendung ausgeschlossen. Die meisten
können es nicht, weil es kompliziert ist, Google kanns schon.

e) JS am Client kann .htaccess-Dateien nicht umgehen.

f) Jede Art von Daten unbedingt in JS zu quetschen bringt nicht wirklich was, außer Langsamkeit.

g) Eine Seite am Client kann nicht zuverlässig erkennen, ob sie vom "richtigen" originalen Server kommt.

h) Traust du allen 20 Benutzern [nichts absichtlich zu machen und keine
unbeachsichtige Malware am System zu haben]? Ich nicht, ganz egal wer
diese 20 Leute sind. Die Zahl 20 reicht schon.

i) Wenn am Server alles passt sollte Google den .htaccess-Passwortschutz nicht umgehen können
(solange niemand die Passwörter beim Eintragen mitgibt und/oder Keylogger hat)
Aber angefangen mit dem Dateinamen könnte eingies nicht passen...

Zusammenfassung:
Mögliche Probleme sind:
Deine falsch getippten Schutzmaßnahmen
Servereinstellungen
Benutzer
Computer der Benutzer
Außerdem Hosterpersonal undundund...

TIMS_Ralf · 4. November 2015

Auch Hi und erstmal vielen Dank....

Uuupss. na klasse... ja natürlich meinte ich "noindex, nofollow"; hatte aufm Server auch keine Tippfehler drin.

tschuldige...

Bei den 20 Leuten handelt es sich um ehemalige Klassenkameraden, Schaulabgang anno 1980, von denen einige (Blondinen) gar nicht wissen, was Malware etc. ... ist

Natürlich könnte da einer irgendeinen Scheiß auf seinem PC haben - aber das erklärt nicht die Vielfalt der Ereignisse.

Habe nun natürlich auch die inneren Seiten mit "noindex, nofollow, nosnippet, noarchive" gesetzt.

Zu f)
Ja natürlich, aber für ne private WEB-Seite für 20 Leutchens mach ich nichts mit PHP / SQL

Zu h)
Jepp.. Du sagst es... da ist einer darunter, der hier evtl. "manuell Hand angelegt" hat. Das ist jener Aspekt, den ich erstmal nicht nennen wollte.
Das würde hier jetzt etwas weit führen - aber ich denke auch, dass dort der "Hund begraben" liegt. Irgendwie scheint der etwas "geltungsbedürftig", wollte "die Wet retten" oder ähnlicher Scheiß. Verschickt da ganz eMailings... die kein home sapiens mehr für voll nehmen kann... egal. Daran dürfte es wohl liegen...

Zu Deinen anderen Infos und den Hinweisen der Zusammenfassung: Danke!
Letztere kann ich weitestgehend ausschließen, aber dass GoogleBot JS intepretieren kann war mir tatsächlich neu! Da häng ich mich nochmal rein...

Wenn du zu h) noch ne Idee hast ( manuelle Anmelden bei Google der URL innerer Seiten - mit/ohne URL-Parameter), laß hören...

Super!
Ralf

Wider allen Schutzmaßnahmen im Google-Cache gelandet...

TIMS_Ralf

Erfahrenes Mitglied

sheel

I love Asm

TIMS_Ralf

Erfahrenes Mitglied

Neue Beiträge