Hallo Leute und Profis,
mal bitte eine Einschätzung von Profis über folgende - recht komplexen - Sachverhalte: ich habe eine WEB-Seite auf eigenem WEB-Server (Root) mit folgenden Schutzmaßnahmen:
1. serverseitiger .htaccees - Passwortschutz ( 1 User / Passwort für ~ 20 Leute )
2. Alle "Links" linken in compiliertem JavaScript (kein HTML A HREF...)
3. META TAGs: no follow, index / expires=0 .... etc. ...
4. robots.txt: disallow /* für alles
5. sitemap.xml: nur für 1. Startseite ( Homepage )
Bis hier sollte sicher sein, dass für Robots, Crawlers etc. kein Weg ins Innere der site führen sollte / dürfte. Schon alleine Punkt 2 (JS-Links) sollte alleine ausreichen stellen, da Robots keine JS-Interpreter haben, also gar kein Javascript ausführen können, um ins Innere (hinter den htaccess-Schutz)
1. Frage: Oder doch...?
Weiterer Schutz im Innern:
6. Enthaltene Daten ( Adressen, Namen...) im Inneren der site (also hinter htaccess-Schutz, JS-Links...) wurden ausschießlich mit JS erzeugt - es stehe also keine Daten im HTML oder Reintext.
7. Scripts, die Daten in ein Doc schreiben, prüfen vorher ab ob die WEB-Seite aus einem Online-Cache kommt (Google, Bing...). Falls JA werden keine Daten sondern eine simulierte Fehlermeldung ins Doc geschrieben.
8. Über 3 Monate hinweg war nichts in den Suchmaschine zu finden - auch nicht bei Google. Dann tauchten plötzlich und nur vereinzelt die inneren, geschützten Seiten bei Google auf.
9. Dies auch NUR bei Google - in keiner anderen Suchmaschine ( Bing, Ask, Yaldex, Yahoo, AOL ) tauchten Treffer auf.
10. "Links" zu Detailseiten eines Adresse werden ebenfalls nur durch JS erzeugt, dabei erhält die URL einen Paramter, der mit
erzeugt und ausgewertet wird. Dennoch tauchten speziell diese URLs in den Suchtreffern und im Cache von Google auf, wie z.B.: http://www.meine-domain.de/seiten/adressen/details?ds=5
11. Schließlich folgte ein "Spießrutenlauf":
Ich löschte alle gefundenen Such-Treffer aus GoogleBot und GoogleCache. Jeweils 2 Tage später tauchten 1-2 neue Treffer auf. Ich löschte diese erneut, prompt erschienen 2 Tage später wieder 1-2 Treffer aus. Das wiederholte sich 5 mal - und jedesmal waren es die gleiche Adresse nur mit unterschiedlichen URL-Patrameter.
Nachdem ich dann rein präventiv alle Links mit allen möglichen Parametern löschte ( ?ds=1, ?ds=2, ?ds=3, .... ds=20 ) ist nun seit 1 Woche Ruhe.
Zugegeben: MEIN Versäumnis:
Im Bewußtsein / Glauben, dass die Schutzmaßnahmen 1-5 ausreichten, habe ich die inneren WEB-Seiten NICHT weiter durch META-TAGs geschützt...
2. Frage:
Ist es möglich, dass "jemand" die inneren, geschützten Seiten manuell bei Google anmeldet - und Google dann diese URL ungeprüft aufnimmt (also entweder nicht auf htaccess prüft oder den htaccess-Schutz umgehen kann).
Das wäre dann natürlich ein ziemlich fetter Hammer
!?
3. dumm daher gefragt:
Oder weshalb / wie konnten die Inneren Seiten - dann auch nur "Stück-für-Stück" (Spießrutenlauf) - sonst in GoogleBot und GoogleCache auftauchen? Wie gesagt: Auch nur bei Google!?
Nochmal: Der Click auf den Suchtreffer führte zum htacess-Zugangsschutz - soweit okay. Aber ein Click in den GoogleCache zeigte die Innere Seite.
Last but not least:
Es gibt noch einen weiteren Aspekt, den ich noch nicht nennen möchte um neutrale und komptenten Antworten zu gewährleisten... Neben den Antworten hier, kann mich zu dieser Sache auch gerne jemand persönlich schreiben - ggf. bitte eine Kontaktnachricht in mein Postfach stellen.
Soo... ufff...
Danke für Zeit und Mühe (das gelesen zu haben
)
Ralf
mal bitte eine Einschätzung von Profis über folgende - recht komplexen - Sachverhalte: ich habe eine WEB-Seite auf eigenem WEB-Server (Root) mit folgenden Schutzmaßnahmen:
1. serverseitiger .htaccees - Passwortschutz ( 1 User / Passwort für ~ 20 Leute )
2. Alle "Links" linken in compiliertem JavaScript (kein HTML A HREF...)
3. META TAGs: no follow, index / expires=0 .... etc. ...
4. robots.txt: disallow /* für alles
5. sitemap.xml: nur für 1. Startseite ( Homepage )
Bis hier sollte sicher sein, dass für Robots, Crawlers etc. kein Weg ins Innere der site führen sollte / dürfte. Schon alleine Punkt 2 (JS-Links) sollte alleine ausreichen stellen, da Robots keine JS-Interpreter haben, also gar kein Javascript ausführen können, um ins Innere (hinter den htaccess-Schutz)
1. Frage: Oder doch...?
Weiterer Schutz im Innern:
6. Enthaltene Daten ( Adressen, Namen...) im Inneren der site (also hinter htaccess-Schutz, JS-Links...) wurden ausschießlich mit JS erzeugt - es stehe also keine Daten im HTML oder Reintext.
7. Scripts, die Daten in ein Doc schreiben, prüfen vorher ab ob die WEB-Seite aus einem Online-Cache kommt (Google, Bing...). Falls JA werden keine Daten sondern eine simulierte Fehlermeldung ins Doc geschrieben.
8. Über 3 Monate hinweg war nichts in den Suchmaschine zu finden - auch nicht bei Google. Dann tauchten plötzlich und nur vereinzelt die inneren, geschützten Seiten bei Google auf.
9. Dies auch NUR bei Google - in keiner anderen Suchmaschine ( Bing, Ask, Yaldex, Yahoo, AOL ) tauchten Treffer auf.
10. "Links" zu Detailseiten eines Adresse werden ebenfalls nur durch JS erzeugt, dabei erhält die URL einen Paramter, der mit
Javascript:
window.location.pathname
// bzw.
window.location.search
11. Schließlich folgte ein "Spießrutenlauf":
Ich löschte alle gefundenen Such-Treffer aus GoogleBot und GoogleCache. Jeweils 2 Tage später tauchten 1-2 neue Treffer auf. Ich löschte diese erneut, prompt erschienen 2 Tage später wieder 1-2 Treffer aus. Das wiederholte sich 5 mal - und jedesmal waren es die gleiche Adresse nur mit unterschiedlichen URL-Patrameter.
Nachdem ich dann rein präventiv alle Links mit allen möglichen Parametern löschte ( ?ds=1, ?ds=2, ?ds=3, .... ds=20 ) ist nun seit 1 Woche Ruhe.
Zugegeben: MEIN Versäumnis:
Im Bewußtsein / Glauben, dass die Schutzmaßnahmen 1-5 ausreichten, habe ich die inneren WEB-Seiten NICHT weiter durch META-TAGs geschützt...

2. Frage:
Ist es möglich, dass "jemand" die inneren, geschützten Seiten manuell bei Google anmeldet - und Google dann diese URL ungeprüft aufnimmt (also entweder nicht auf htaccess prüft oder den htaccess-Schutz umgehen kann).
Das wäre dann natürlich ein ziemlich fetter Hammer


3. dumm daher gefragt:
Oder weshalb / wie konnten die Inneren Seiten - dann auch nur "Stück-für-Stück" (Spießrutenlauf) - sonst in GoogleBot und GoogleCache auftauchen? Wie gesagt: Auch nur bei Google!?
Nochmal: Der Click auf den Suchtreffer führte zum htacess-Zugangsschutz - soweit okay. Aber ein Click in den GoogleCache zeigte die Innere Seite.
Last but not least:
Es gibt noch einen weiteren Aspekt, den ich noch nicht nennen möchte um neutrale und komptenten Antworten zu gewährleisten... Neben den Antworten hier, kann mich zu dieser Sache auch gerne jemand persönlich schreiben - ggf. bitte eine Kontaktnachricht in mein Postfach stellen.
Soo... ufff...
Danke für Zeit und Mühe (das gelesen zu haben

Ralf