robot programmieren

@colblake Das mit dem zuwenig Ressourcen sollte nicht das Problem sein ->

Ich glaube das ich ein wenig missverstanden worden bin.
Ich will keine neue Suchmaschine à la Google, Teoma etc aufbauen. Ich will mit meinen Leuten "lediglich" eine Art Sourceforge aufbauen, nur eben nicht mit Programmen sondern mit Treibern aller Art. Nicht so groß und umfangreich wie Sourceforge ;)

Also jetzt wieder erklären:
In der Datenbank befinden sich die Links der Treiber/Update Hersteller, zB. ATI, Nvidia, Logitech, etc.
Der Spider bedient sich daraus und durchforstet die Seiten (meist FTP) nach neuen Treibern+Beschreibung, die Beschreibung und den Link speichert der Spider in unserer DB. Der Spider weiß ziemlich genau wonach er suchen muss, nach exe, zip dateien, er ignoriert bis auf ausnahmen links.
Kommt ein Benutzer auf unsere Seite, installiert das Tool, werden in mögliche Updates bzw Treiber übersichtlich angeboten.
Mit einem Klick kann er dann den gewünschten Treiber downloaden/installieren.

Und das soll gratis sein, nicht so wie auf drivershq für 29,95$


Im Prinzip steht schon alles bereit, die DB, die Webseite etc. Eigentlich wollten wir allles manuell machen, das treiber sammeln etc. aber dann ist ein freund von mir auf die idee, gekommen einen robot zu beschäftigen.
Nur sind wir eben keine Programmierer, wir können alle nur mit PHP, ASP.net umgehen, und damit läßt sich das nicht wirklich berwerkstelligen

Und das mit den Ressourcen (Server, Serveranbindung, etc) wird kein Problem sein.... :)


Als einen letzten Ausweg werden wir wohl auch einen Freelancer beschäftigen, aber wir würden es gerne ohne lösen.
 
Hallo,

keine Ahnung, wie der vereinfachte Spider funktionieren wird, müsste ich drüber nachdenken. Ein echter WebSpider (also Suchmaschinentauglich) könnte hergehen und statt einer Rekursion einfach alle gefundenen Links an eine Tabelle in einer DB anhängen. Damit habe ich einen Thread, der einfach immer die nächste Seite aus dieser Tabelle nimmt um aus dieser Seite alle Links wiederum hinten anhängt. Zwar wird der Abstand zwischen "vorne" wo der Arbeitsthread am Wirken ist und "hinten" wo die letzten Links in der Tabelle stehen und auf Abarbeitung warten, immer größer, aber dafür kann ich ja mehrere Threads ansetzen. Warum ich hier von Threads und nicht von Programmen spreche? Weil ich das ganze als Java-Anwendung schon mal gemacht habe und festgestellt habe, daß es nahezu alles, was man dafür braucht entweder standardmäßig in Java schon gibt oder aus dem Internet holen kann. Also keine Panik, so schwer ist es auch wieder nicht, wenn Ihr einen guten Server, eine gute DB und vor allem eine seeeehhhr gute Leitung habt.

Gruß
Fingers
 
Hallo,
gibt es eigentlich ein Tutorial um z.B. in PHP einen Robot zu erstellen?
Ich weiß nicht wirklich wie ich da einen Anfang finden soll.

Wäre nett wenn ihr mir da helfen könntet ;)
 
Hallo,
gibt es eigentlich ein Tutorial um z.B. in PHP einen Robot zu erstellen?
Ich weiß nicht wirklich wie ich da einen Anfang finden soll.

Wäre nett wenn ihr mir da helfen könntet ;)

Keine Ahnung ob's dazu Tutorials gibt, aber kommt mal ganz drauf an, was für einen Robot du meinst. Es wird sicher niemand einen so komplexen Bot wie sie von zB Google benutzt werden in PHP geschrieben haben. Das wäre schwachsinn. Wobei man in PHP auch einfach Regex benutzen kann und dann kannst du dir ganz leicht die Informationen, die du haben willst, rausfiltern.
Deswegen ist die Idee, die der Threadersteller (vor etwas mehr als 3 Jahren) hatte, auch in PHP recht einfach lösbar.
 

Neue Beiträge

Zurück