Nun gut. Aber lass den Blödsinn mit händisch kopieren weg, das ist Mumpitz. Setz Dich lieber noch 1-2 Monate ran und verstehe das parsen/scrapen, dann macht das wenigstens Sinn. Angenommen, Du brauchst für einen Eintrag 1 Minute, so brauchst Du für das vollständige "Kopieren" ~50.000 Minuten, das sind 35 Tage am Stück, ohne Pause, ohne Essen, ohne Problemchen, ohne Updates, 24 Stunden am Tag. Über solch eine Idee brauchst Du nicht mal ansatzweise nachdenken, denn reell würde es Dich vielleicht die 20fache Zeit kosten. Jeden Tag 10.000 Einträge? NEVER!
(Unten in meiner Signatur ist diese dslr-kleinanzeigen-Seite, die basiert auf dem Auslesen von Webseiten (wo die Erlaubnis vorliegt).)
* welche Finden-Philosophie (per http) ist die Beste (via Buchstabensortierung, per ID? etc pp) In Deinem Beispiel ist
die Übersichtsliste vorzüglich geeignet. Auslesen, wieviele Seiten es sind (pro Seite hier 40 Einträge), dann die Variablen in der url ändern und
* mittels regex oder DOM die Einträge durcharbeiten.
* Jede Url einzeln ansprechen, wieder auslesen.
* Zu speichernde Daten in "Dein" Datenbankformat zurechtschieben, speichern.
* Von Anfang an so programmieren, dass es virtuell nach neuen Einträgen sucht (ist dieser Eintrag schon in meiner DB). Dafür bietet sich die ID der url an ( zB a Channel ist bei anisearch id 6585). Somit hast Du ein Modul, dass Du zB einmal die Woche rüberfliegen lassen und Deine DB sich selbst aktualisieren kann. Bitte immer mit den Seitenbetreibern eine Absprache finden, wann Du Deinen Code ackern lässt, Du könntest den Server zu sehr beanspruchen.