Hallo Leute...
habe folgendes Problem bei dem Codeschnipsel:
Es handelt sich um ein Crawler welcher Internetseiten durchsucht und die Inhalte parst.
Wie kann ich es schaffen, dass die Vectoren t und t2 so abgeglichen werden, dass sie selbst sowie untereinander keine doppelten URL-Einträge haben. Sonst würde der Crawler ja in eine Endlosschleife mit den Links laufen.
Wie kann ich das realisieren bzw. kann ich das überhaupt so realisieren.
Für Eure schnelle Hilfe danke ich im Voraus
Alex
habe folgendes Problem bei dem Codeschnipsel:
Code:
int z = 0;
Vector t = PT.getLinks(test, myURL); // bekommt die Links in einem Vector
Linkdata ld;
URL url;
Enumeration enum = t.elements();
int f = t.capacity(); // Anzahl der Vectoreinträge
logger.debug("Kapazität: "+f);
while (enum.hasMoreElements()) // geht jeden Vectoreintrag durch und
{
ld = (Linkdata) enum.nextElement();
URL tURL = new URL(ld.getUrl()); // bekommt die URL des Vectorelementes
logger.debug(tURL); // gibt das Vectorelement aus
String test2 = te.getAsciiFile(tURL); // bekommt den ASCII-Code der URL
Vector t2 = PT.getLinks(test2, myURL); // sucht die Links des Vectorelementes
z = t2.capacity();
logger.debug("Kapazität: " +z);
}
Es handelt sich um ein Crawler welcher Internetseiten durchsucht und die Inhalte parst.
Wie kann ich es schaffen, dass die Vectoren t und t2 so abgeglichen werden, dass sie selbst sowie untereinander keine doppelten URL-Einträge haben. Sonst würde der Crawler ja in eine Endlosschleife mit den Links laufen.
Wie kann ich das realisieren bzw. kann ich das überhaupt so realisieren.
Für Eure schnelle Hilfe danke ich im Voraus
Alex