Javascript im Quelltext ignorieren...

Nunja.. komische Symbole könnten auftretten wenn du ein "Problem" mit dem Charset hast.

Übrigens, hier ein kleines Beispiel zum Filtern.

Am RegEx gehört noch gefeilt, bin jetzt aber zu müd.. *g* (href-Attribut ohne Anführungszeichen wird nicht richtig erkannt...)

C#:
static void Main(string[] args)
{

	Console.Write("URL>");
	string url = Console.ReadLine();

	try
	{
		HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
		HttpWebResponse response = request.GetResponse() as HttpWebResponse;

		string content = "";

		using (StreamReader reader = new StreamReader(response.GetResponseStream()))
		{
			content = reader.ReadToEnd();
		}

		Regex regex = new Regex(@"<a(.*?)href=(?<q>[""]?)(?<url>.*?)(\k<q>)(.*?)>(?<text>.*?)</a>");

		MatchCollection matches = regex.Matches(content);

		if (matches.Count == 0)
		{
			Console.WriteLine("Keine Übereinstimmungen gefunden");
			return;
		}

		foreach (Match match in matches)
		{
			Console.WriteLine("Link\t{0}", match.Value);
			Console.WriteLine("URL\t" + match.Groups["url"]);
			Console.WriteLine("Text\t" + match.Groups["text"]);
			Console.WriteLine();
		}

		Console.WriteLine("Matches: {0}", matches.Count);

		Console.ReadLine();

	}
	catch (Exception ex)
	{
		Console.WriteLine("Ein Fehler ist aufgetretten.. baba");
	}

}
 

Neue Beiträge

Zurück