komplette webseite runterladen (mit bildern usw.)

MrPink

Grünschnabel
hi
wi man eine eine einzelne webseite runterläd weiß ich aber wie kann ich eine komplette webseite runterladen mit bildern und allen links auf der webseite. ne große hilfe wäre es wenn mir einer sagen könnte wie ich daraus die links und image urls extrahieren kann?
oder gibts da noch ne einfachere möglichkeit?
ich bin über jede hilfe dankbar

MfG
MrPink
 
thx aber so hab ich das nicht gemeint... das ist ja auch nur nen programm mit dem du das machen kannst ich will das ja in mein vc++ projekt einbinden und die daten danach weiterverarbeiten aber trotzdem thx :D

MfG
MrPink
 
Für Beispielcode hab ich im Moment leider keine Zeit, du musst aber im Prinzip nur einen Teil des HTML-Formats parsen, wenn ich mich nicht irre musst du in diesem Fall nur nach "href=" suchen (sofern du JavaScript usw. ignorierst).
 
hmm ich werd mal schaun.
hat du vieleicht nen link wo ich mehr zum parsen erfahre?
mir ist noch nicht so ganz klar wie das am besten mache

Thx
 
Hmm, nein leider nicht, allerdings wirst du hier eh keinen vollstädnigen HTML-Parser brauchen... Prinzipiell funktionierts in diesem Fall so:

1) Datei einlesen
2) nach "href=" suchen
3) folgenden String (die URL) einlesen
4) URL herunterladen
5) Falls die URL eine HTML-Datei ist: mit dem selben Algroithmus auswerten (Achtung: Rekursion; Die Tiefe sollte beschränkt werden)
6) Solange das Dateiende nicht erreicht ist -> Schritt 2

Das ganze funktioniert natürlich auch iterativ.
 
wie kann ich den den string der die url enthält am einfachsten extahieren? bessergesagt wie kann ich rausfinden wo er endet den anfang krieg ich ja indem ich nach "href=" suche aber wie krieg ich jetzt das ende?
 
Hmm ich würd mal sagen du suchst nach dem ersten Zeichen nach href= (' oder ") wenn ich mich recht erinnere und das selbe Zeichen ist dann auch wieder das Ende des Strings. (Das kannst du sowohl "manuell" (Zeichenweise) machen oder bestehende String-Routinen verwenden.
 

Neue Beiträge

Zurück