Die Aufgabe lautet :
1.Der Crawler lädt das HTML von einer URL
2.Er sucht die Link-URLs aus dem HTML (<a href=...>)
3.er lädt die URLs der gefundenen Links (zurück zu 1.)
4.Nach 10000 Pages bricht er ab.
1und 2 habe ich schon den Rest habe ich 2 tage daran gedacht und gesucht aber leider nichts gefunden was einfach ist ich bitte sie um Hilfe
voila mein code :
1.Der Crawler lädt das HTML von einer URL
2.Er sucht die Link-URLs aus dem HTML (<a href=...>)
3.er lädt die URLs der gefundenen Links (zurück zu 1.)
4.Nach 10000 Pages bricht er ab.
1und 2 habe ich schon den Rest habe ich 2 tage daran gedacht und gesucht aber leider nichts gefunden was einfach ist ich bitte sie um Hilfe
voila mein code :
Java:
import java.net.URL;
import java.util.ArrayList;
import java.util.LinkedList;
import java.util.List;
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTMLDocument;
import javax.swing.text.html.HTMLEditorKit;
public class Java {
public static List<String> addLinks(List<String> links,String urlLink){
links = new ArrayList<String>();
String line="";
HTMLEditorKit editorKit = new HTMLEditorKit();
HTMLDocument htmlDoc = new HTMLDocument();
try{
editorKit.read(new URL(urlLink).openStream(), htmlDoc, 0);
}catch(Exception e){
e.getStackTrace();
}
for(HTMLDocument.Iterator iter = htmlDoc.getIterator(HTML.Tag.A);iter.isValid();iter.next()) {
line=(String)(iter.getAttributes().getAttribute(HTML.Attribute.HREF));
if (links.size()<10000){
//System.out.println(line);
links.add(line);
}
}
return links;}
public static void startCrawler(int threads){
}
public static void main(String[] args) {
List <String> link = new ArrayList<String>();
addLinks(link,"http://www.tutorials.de");
System.out.println(link.size());
for(String element:link){
//hier habe ich ein problem dass die Liste leer bekomme
System.out.println(element);
// und wie geht es weiter
}
}
}
Zuletzt bearbeitet von einem Moderator: