Kann man nur den <body> Tag abrufen?

Centin · 17. Mai 2010

Hi,
ich hätte mal ne bekloppte:
Kann man nur den <body> Tag einer Seite laden?

Ich will ein Programm schreiben das 10 Seiten alle 60 Sekunden in einer DB abspeichert um nachher bestimmte Trends zu untersuchen. Jetzt hab ich geguckt und musste mit Entsetzen feststellen dass diese ca. 150KB groß sind und das nur der Quellcode, also ohne Bilder, Flash, etc. . Das wären dann Gigabytes an Daten die ich speichern/übertragen müsste. Habt ihr vielleicht andere Ansätze wie man das Problem lösen könnte?

Ich denke wenn ich den Header nicht mitübertragen muss dann spare ich schon paar KBs wegen javascripts, aber ich bin da selber skeptisch ob es möglich ist.

Danke im Voraus!

Centin

Parantatatam · 17. Mai 2010

Es ist definitiv nicht möglich nur den body-Tag direkt von einer Seite zu laden.

Dr Dau · 17. Mai 2010

Hallo!

Du könntest die Seite laden und Dir mit regulären Ausdrücken die für Dich relevanten Teile raussuchen und nur diese in der Datenbank speichern.

Scheinbar dreht es sich aber nicht um Deine Seiten..... sonst würde es sicherlich noch andere Möglichkeiten geben, als nur die ganze Seite auszulesen.
Und da Du die Seiten im Minutentakt laden willst, könnte es sein dass es da dann Ärger geben könnte (Du verursachst eigentlich unnötigen und damit hohen Traffic).

Gruss Dr Dau

Centin · 17. Mai 2010

Scheinbar dreht es sich aber nicht um Deine Seiten..... sonst würde es sicherlich noch andere Möglichkeiten geben, als nur die ganze Seite auszulesen.
Und da Du die Seiten im Minutentakt laden willst, könnte es sein dass es da dann Ärger geben könnte (Du verursachst eigentlich unnötigen und damit hohen Traffic).

Jap, hast mich erwischt

Es sind Aktienkurse um genau zu sein. Aber ob ich da rumsitze und ständig F5 drücke oder einfach ein kleines Programm schreibe das sowas für mich erledigt ist doch egal, oder? Ich will ja nicht die Daten verkaufen oder veröffentlichen, sondern nur für eigene Spielereien benutzen. Außerdem hab ich schon Extentions für Firefox gesehen die ne Seite in bestimmten Intervallen aktualisieren, von daher sollte es den Betreibern also nicht besonders auffallen.

Sven Mintel · 17. Mai 2010

Moin,

so, wie es sich liest, ist dein Problem nicht, dass die Seiten 150kb gross sind, sondern dass du diese 150kb auch in die DB packst.

Du könntest das vermeiden, indem du, sobald du den Quelltext hast, dort per bspw. RegExp nur die relevanten Daten herausfischt und auch nur diese in die DB einträgst, wie es bereits Dr.Dau vorschlug.

Das Beste wäre natürlich, wenn du dir gleich einen Anbieter suchst, der nur die benötigten Daten bspw. als RSS-Feed anbietet.

Kann man nur den <body> Tag abrufen?

Centin

Grünschnabel

Parantatatam

mag Cookies & Kekse

Dr Dau

ich wisch hier durch

Centin

Grünschnabel

Sven Mintel

Mitglied

Neue Beiträge