Html Code einlesen, Speicherüberlauf? Zuviel Code?

sheel · 1. November 2011

Hi, kumaro:

Auf die Anhangfunktion hat dich Spikee ja schon hingewiesen.
(Rar-Problem kann ich übrigens nicht bestätigen...trotzdem: Anhang).
RS macht kein Geheimnis daraus, dass Dateien irgendwann gelöscht werden.

Und: Vermeide bitte Doppel/Dreifach/Mehrfachposts hintereinander.
Ist ja wirklich nicht das erste Mal...

Gruß

edit @ Spikee: Ich bedien mich mal an deiner Anhangsammlung für kumaros Post, ok?

Kumaro · 1. November 2011

Oh ok sorry, werde mich bessern

. Danke für den Hinweis Spikee.

Der .rar Download geht bei mir aber ^^.... ich hatte zw durch kurz eine neue variante hochgeladen und dann den link angepasst, kann sein das du es gerade da versucht hast.

Versuch es doch bitte nochmal. Dort siehst du dann auch welche beiden Links ich in den String gegeben habe.

Danke Dir.

SE · 1. November 2011

@sheel
DAS GEHT ? ... o0 ... ok ... dann mach ruhig.

@TO
Hast du die Anmerkung mit der Attachment-Funktion verstanden ?

// EDIT

NEIN ... ich werde dein RAR doch nicht supporten.
Mal davon abgesehen dass das noch nicht mal vollständig ist ist wie bereits erwähnt mir das Format zu wieder.
Wie wäre es wenn du mal den KOMPLETTEN Source uppst ... so wie er jetzt ist ... und nicht einfach zwei Klassen die nichts weiter machen als über ne URLConnection den Inhalt einer Seite auf der Console auszugeben.
Das kann ich dir auch deutlich besser und performanter machen.
In meinen Augen ist es noch nicht mal ein Beispiel ... da die Problemstelle über nicht vorhanden ist. Auch werde ich mich nach dem Aufruf der Seiten *.gr = Griechenland ? ... WTF ?* irgendwie ein bisschen weigern mir den Source zu compilen oder gar das pre-compiled auszuführen. Selbst mein Browser braucht ja für das Laden beider Seiten mehrere Sekunden ... und dann soll ich noch irgendwie dran rum doktoren ? Und das mit Source der noch nicht mal das Problem an sich verursacht ?

Auch ist scheinbar deine hier gepostete Klasse WebsiteScanner , die in deinem RAR noch nicht mal vorhanden ist , hier auch nicht vollständig. Warum übergibst du Parameter die du nicht verwendest ?

Es tut mir leid ... aber ein solches dahin-Gekritzel und Content für den meine Bits ne ziemlich lange Reise machen müssen ... und dann noch etwas was man mit RegEx um einiges leichter machen kann ... da vergeht mir ganz erlich die Lust dran.

Wenn du nicht dafür sorgst das wir dir überhaupt helfen können ... dann erwarte bitte keine unmögliche Hilfe.

smileyml · 1. November 2011

Sorry, das ich hier offtopic schreiben muss.

Spike, du wurdest mehrfach verwarnt und vor Kurzem auch noch mal persönlich von Dominik auf deinen Umgangston hin ermahnt. Das hat nicht mal etwas mit der Netiquette zu tun, sondern wiederspricht jeglichem normalen Verhalten - zumindest wie wir es hier verstehen.

Aus diesem Grund habe ich dir gern ein paar Verwarnpunkte gegeben und zusätzlich für 30 Tage Sendepause bescherrt. Wie wir jetzt weiter mit dir umgehen, beraten wir intern.

Allen anderen wünsche ich trotzdem viel Spaß.

Kumaro · 2. November 2011

Mh... ok... Ich versteh nicht warum du dich so aufregst?

Der Fehler tritt ja in meinem Besipiel auch auf. Also muss es ja irgendwie mit den beiden Klassen zu tun haben. Die WebsiteScanner klasse hat damit nichts am hut die läuft.

Ich wollte einfach unnütze Sachen des Codes Weglassen damit ihr euch nicht durch alles durchwühlen müsst....

Undvon RegEx hab ich keinen Plan, es muss ja auch so gehen.

Aber dennoch danke für eure Hilfe.

Fabio Hellmann · 2. November 2011

Hi,

also wenn ich das richtig verstanden habe, soll dein Programm eine Webseite einlesen und die Inhalte der Links ausgeben, welche du dann später verarbeitest. Richtig?
An deiner Stelle würde ich eine Ausgabe vor der URL-Erzeugung einbauen, um zu überprüfen, ob das Programm überhaupt die Links parst, welche du auch erwartest.

Java:

public String getStrFromUrl(String surl) {
          
        final String userAgent = "Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.12) Gecko/20080201 Firefox/2.0.0.12";
          
          try {
             // HIER die Ausgabe einsetzen
             System.out.println("URL: " + url);

             URL url = new URL(surl);
             URLConnection conn = url.openConnection();
             conn.addRequestProperty("User-Agent", userAgent);
     
             BufferedReader in = new BufferedReader(new InputStreamReader(
                   conn.getInputStream()));
             String str;
             StringBuilder builder = new StringBuilder(1024);
             while ((str = in.readLine()) != null) {
                builder.append(str);
                builder.append("\n"); //damit es hinterher auch so aussieht wie vorher ;-) 
             }
             in.close();
                         //Test-Output
                         //System.out.println(builder.toString());
             
            System.out.println("Seite wurde eingelesen.");           
            return builder.toString();
          
          } catch (MalformedURLException e) {
             System.out.println(e.getMessage());
          
          } catch (IOException e) {
             System.out.println(e.getMessage());
          }
        return "Error";
       }

Wenn die URL dem Link entspricht, den du parsen willst, ist alles ok. Falls nicht wird dort wahrscheinlich der Fehler liegen.

Gruß

Fabio

deepthroat · 2. November 2011

Hi.

Ich hab mir den Code im zip mal angeschaut. (Danke für's zip - hab hier kein unrar

)

Ich kann kein Problem feststellen. Beide URLs werden verarbeitet. Dauer: ca. 55 sek.

Ich habe es mehrfach ausprobiert. Evlt. liegt das Problem woanders? Netzwerkeinstellungen? Malware?

Gruß

Html Code einlesen, Speicherüberlauf? Zuviel Code?

sheel

I love Asm

Kumaro

Mitglied

SE

smileyml

Tankwart

Kumaro

Mitglied

Fabio Hellmann

Erfahrenes Mitglied

deepthroat

Erfahrenes Mitglied

Neue Beiträge