robot programmieren

mgraf · 21. Dezember 2004

Mahlzeit!

Ich habe eine Frage die mich schon des längerem beschäftigt:
In welcher Sprache sind die robots (von zb.: Google, etc.) eigentlich geschrieben?
Und wie sind sie aufgebaut?

Was mir natürlich auch helfen würde, wenn jemand eine Art Tutorial dazu parat hätte!

KUrz gesagt: Ich hätte gerne alles, was in Zusammenhang mit den robots steht, hoffe irgendjemand kann mir da weiterhelfen.

mfg & danke schon mal im voraus

Alexander Schuc · 22. Dezember 2004

Hallo.

Solche Dinger kannst du mit jeder Sprache erstellen, mit welcher du Netzwerkverbindungen herstellen kannst.

Du musst deinen Bot nur so erstellen, das er einen Link folgen - also eine Webseite abrufen - und den Inhalt auswerten kann. Die neu gefundenen Links muss er dann wieder folgen.
Und ein paar Sachen müssen dann halt noch berücksichtigt werden. Wie zum Beispiel das du die robots.txt aufrufen versuchen, und auswerten können solltest etc.

Je nach Sprache/Umgebung ist es unterschiedlich schwer, und wenn du dich nicht sehr gut auskennst, wird die Verarbeitung des gefundenen Inhalts nicht gerade toll sein. Ausserdem brauchst genügend Bandbreite (je nachdem wieviele Seiten du gleichzeitig aufrufen willst) und Zeit.

MfG,
Alex

Sicaine · 22. Dezember 2004

Jo bin mir sicher, dass google etc. aus performancegründen c++ hernehmen wenn nich teilweise ass pur reinhaun bzw. optimieren.

Christian Fein · 22. Dezember 2004

Perl ist für sowas unschlagbar. Wenn es um Textprozessing geht ist Perl die Wahl!

Wenn ich mich nicht täusche ist auch der Google Robot in Perl.

mgraf · 23. Dezember 2004

Danke für die Antworten.
Also, worum es mir im Grunde geht:
Ich möchte mit ein paar Leuten eine Art Open Source Datenbank aufbauen, in etwa so wie drivershq nur eben kostenlos.

Und da sind wir auf die Idee gekommen, wir könnten doch einen robot die suche nach neuen treibern/updates machen lassen.
Und der holt sich die Links der Hersteller aus einer DB, die ständig aktualisiert wird, von Nutzern der zukünftigen Site und natürlich von den Admins

.

Nur, das Problem ist, von robots programmieren, hat keiner von uns erfahrungen.

Und jetzt die allgemeine Frage: Was haltet ihr grundsätzlich von der Idee?

Sicaine · 23. Dezember 2004

@Christian hm ich denke zwischen Perl und c++ definitiv ein nicht zu ignorierender geschwindigkeitsnachtei weshalb es mich wundern würde, wenn die in Perl sind,.

@mgraf hm du hast keine Ahnung von Programmierung und willst sowas machen? Abgesehen davon dasa die Idee ansich schon blöd ist, wirst du mit deinem aktuellen Wissen nicht weit kommen.Unteranderem gibt es genügend Seiten für Treiber die schon sehr umfangreich sind und unteranderem benötigst du auch noch nen richtigen Server der für dich sucht etc.

Christian Fein · 23. Dezember 2004

Sicaine hat gesagt.:
@Christian hm ich denke zwischen Perl und c++ definitiv ein nicht zu ignorierender geschwindigkeitsnachtei weshalb es mich wundern würde, wenn die in Perl sind,.

Aber nicht was Regex bearbeitungen geht. Hier spielt Perl in einer eigenen Liga.
Geschwindigkeit ist hier nicht alles. Mann kann Geschwindigkeit auch durch horizontale Verbesserrung (sprich mehr hosts die suchen) erreichen.

Sicaine · 23. Dezember 2004

Christian Fein hat gesagt.:
Aber nicht was Regex bearbeitungen geht. Hier spielt Perl in einer eigenen Liga.
Geschwindigkeit ist hier nicht alles. Mann kann Geschwindigkeit auch durch horizontale Verbesserrung (sprich mehr hosts die suchen) erreichen.

Tjo da stellt sich wohl nur die Frage was Google mit Regex will wenn se ne Website indizieren. Wenn mans da selbst in c++ progt is es zwar kurzzeitig aufwendiger aber wenn man sich ansieht fwas für Server da rumsuchen dann lohnt sich das .

Christian Fein · 23. Dezember 2004

Sicaine hat gesagt.:
Tjo da stellt sich wohl nur die Frage was Google mit Regex will wenn se ne Website indizieren. Wenn mans da selbst in c++ progt is es zwar kurzzeitig aufwendiger aber wenn man sich ansieht fwas für Server da rumsuchen dann lohnt sich das .

Was meinst du wie Google den HTML Quelltext untersucht

Natürlich mit Regulären Ausdrücken.

Dein letzter Satz macht irgendwie keinen sinn.

colblake · 23. Dezember 2004

Hi mgraf,

Ich hab mal sowas ähnliches in MFC gemacht. Ich hab keine Rekursion benutzt sondern konnte links peer Maus weiterverfolgen.
Ich bin da auf ein nicht ganz unwichtiges Problem gestoßen.
Wenn du alle Links der Seite herausgefilter hast, wie gehst du dann weiter vor?
Alle links gleichzeitig mittels Rekursion weiterverfolgen dürfte deinen Rechner bei zeiten in die Knie zwingen.
Nacheinander bearbeiten. Geht, aber du bekommst von jedem Link/Seite wieder neue Daten, die du dann nachverfolgen musst.

Will sagen:
Der Knackpunkt hierbei ist die stark expandierende Menge an Daten zu händel.

Bsp:
Bei einer rekursionstiefe von 5 und 10 Links pro Seite ( was bei manchen Seiten bei weitem nicht ausreichent ist ) sind es schon 10^5 = 1.000.000 Links die du behadeln mußt.

Mfg Col.Blake

robot programmieren

mgraf

Erfahrenes Mitglied

Alexander Schuc

crazy-weasel

Sicaine

Christian Fein

Erfahrenes Mitglied

mgraf

Erfahrenes Mitglied

Sicaine

Christian Fein

Erfahrenes Mitglied

Sicaine

Christian Fein

Erfahrenes Mitglied

colblake

Erfahrenes Mitglied

Neue Beiträge