WebRequest Problem (unerwarteter Response)

benhaze

Mitglied Platinum
Hallo liebe Entwicklerfreunde,
für ein kleines privates Projekt versuche ich Daten von einer Website auszulesen.
Dabei habe ich das Problem, das ich nicht alle Inhalte erhalte, die ich eigentlich erwartet hätte.

konkretes Beispiel:
Für ein kleines Just4Fun-Projekt brauche ich Bundesliga-Daten.
Dafür gibt es viele Quellen. u.a OpenBundesligaDB (mit sehr bequemer SOAP Schnittstelle!).
Aber da ich dabei auch noch wenig *spielen* wollte, habe ich es mal mit HTMLUnit und der Kicker-Seite probiert.

Hier ist der Code:

Java:
    public static void main(String[] args)
    {
        try
        {
            final WebClient webClient = new WebClient(BrowserVersion.CHROME_16);
            webClient.setJavaScriptEnabled(false);
            final HtmlPage page = webClient.getPage("http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2012-13/12/0/spieltag.html");
            final InputStream is = (InputStream) page.getWebResponse().getContentAsStream();
            final StringWriter sw = new StringWriter();
            byte[] buffer = new byte[1];
            while ((is.read(buffer)) > -1)
                sw.write(new String(buffer));
            sw.flush();
            
            System.out.println(sw.toString());
            
            is.close();
            sw.close();
        }
        catch (Exception ex)
        {
            ex.printStackTrace();
        }
    }

Wenn man nun den Code mit dem aus einem Browser vergleicht (Quelltext anzeigen), fällt auf
das die besagte Tabelle (die Bundesliga-Tabelle! nicht die Spielpaarungen) fehlt.

Da ich HTMLUnit benutze und dachte ich man müsste gar nicht so viel *Einstellen*..
Also habe ich mit dem WebDeveloper(Firefox) mal alles deaktiviert was so geht (JavaScript, alle möglichen Referer, CSS) und die Seite (im Firefox) neu geladen.

Die Tabelle wird dennoch angezeigt (klar, ziemlich zerstümmelt...aber die Daten sind vorhanden...)

Mir geht es hier jetzt nich um eine 1:1 Lösung mit dem Kicker Problem (war ja nur just4fun), vielmehr interessiert mich
was dazu führen kann, das *content* fehlt.
Ich dachte wenn man mit dem WebDeveloper alls DEAKTIVIERT, das das Ergebnis gleich sein müsste.
Vor allem wenn man HTMLUnit benutzt.

Hat da evtl. jemand eine Idee oder nen Tipp?
Danke!
 
Ich habe einen Tipp an mich selber!
SCHAU DIR NÄCHSTES MAL DEINE LINKS BESSER AN DU TROTTEL!
UND VERGLEICHE: Link im Browser - Link im Code!
(wir haben noch nicht den 12. Spieltag wie im Link angegeben -> ergo keine Tabelle für diesen Tag)

Naja...
(Wieder etwas Internet verschwendet...)
 
Zuletzt bearbeitet:

Neue Beiträge

Zurück