[C #] Regex Zahlenkette ohne feste laenge

majoko · 28. März 2011

Hi,
ich hab einen String aus dem ich gerne bestimmte Teile mit Regex auslesen wuerde.
Leider variiert der String und ist nicht immer gleich lang. Ist dies dennoch moeglich.

Beispielstring(die Zahlen nach "post_message_" sind manchmal mehr, weniger und unterschiedlich...):

<div id="post_message_1935262">
<blockquote class="postcontent restore">
TEXT[<-ALLES WAS HIER STEHT SOLL AUSGELESEN WERDEN]
</blockquote>
</div>

Danke im Vorraus!

Edit: Falls das geht waere es super wenn der blockquote Teil auch nicht sein muss (er kommt auch nur manchmal vor) aber kann sodass ich kein if statement brauche...

Spyke · 28. März 2011

Code:

Match m = Regex.Match(meinString, "id=\"post_message_(?'Zahl'[0-9]+)\"");
if(m.Success && m.Groups["Zahl"].Sucess)
{
   int ih;
   int TryParse( m.Groups["Zahl"].Value, out ih);
}

So ungefähr, nicht getestet.
Für Regex Anfänge: http://www.traum-projekt.com/forum/...rials/27341-workshop-regular-expressions.html da hab ich die Anfänge gelernt.
Der Rest geht dann über msdn: http://msdn.microsoft.com/de-de/library/az24scfc(v=VS.80).aspx

majoko · 29. März 2011

Hi,
danke hab den Teil jetzt hingekriegt aber leider ergibt sich ein neues Problem:
Und zwar hab ich das Ende des Strings bisher mit "</div>" festgelegt wodurch der String allerdings abegkuerzt wird wenn der gesuchte Teil selber "</div>" beinhaltet.

Wenn ich also folgedenen String habe:

HTML:

<div id="post_message_123456789">
TEXT ZUM AUSLESEN
<div>
MEHR TEXT ZUM AUSLESEN
</div>
NOCH MEHR TEXT ZUM AUSLESEN
</div>

bekomme ich nur:

HTML:

TEXT ZUM AUSLESEN
<div>
MEHR TEXT ZUM AUSLESEN

und der letzte Teil wird ausgelassen.

Wie kann ich das Ende flexibel gestalten?

Bisheriger Code:

C#:

Match match = Regex.Match(threadHTML, "<div id=\"post_message_[0-9]*\">");
                
                    int startIndex = match.Index + match.Length;
                    int endIndex = threadHTML.IndexOf("</div>", startIndex);
                    string String= threadHTML.Substring(startIndex, endIndex - startIndex);
                    String = String.Trim();

                    MessageBox.Show(String);

Turri · 30. März 2011

Hallo,

Wenn div immer dein Ende ist, könntest du von hinten anfangen nach "</div>" zu suchen.

C#:

int endIndex = threadHTML.LastIndexOf("</div>");

CPoly · 30. März 2011

majoko hat gesagt.:
Und zwar hab ich das Ende des Strings bisher mit "</div>" festgelegt wodurch der String allerdings abegkuerzt wird wenn der gesuchte Teil selber "</div>" beinhaltet.

Kein Problem mit Regulären Ausdrücken.

C#:

using System;
using System.Text.RegularExpressions;

class Program
{
	static void Main(string[] args)
	{
		string str = "<div id=\"post_message_1935262\"><blockquote class=\"postcontent restore\">TEXT[<-ALLES WAS HIER STEHT SOLL AUSGELESEN WERDEN]</blockquote></div>";
		string pattern = "^<div id=\"post_message_[0-9]+\">(.*)</div>"$;
		
		Regex rx = new Regex(pattern, RegexOptions.Singleline);
		
		Match m = rx.Match(str);
		
		if(m.Groups.Count > 1)
		{
			Console.WriteLine(m.Groups[1].Value);
		}
	}
}

Funktioniert für beide deine Beispiele.

Du solltest gänzlich auf die String-Operationen (IndexOf, Substring) etc. verzichten, wenn du ohnehin Reguläre Ausdrücke verwendest.

Spyke · 30. März 2011

Du könntest dir meinen Wikiparser mal per Reflector anschauen, da suche ich unter anderem auch nach HTML Tags, ev. hilft es dir ja was.
Hatte schon längst vor den Code mal zu veröffentlichen, aber der liegt aufm anderen Rechner und da ist die Graka kaputt. Einer der Sicherungs USB's liegt im Auto und wo ich den anderen USB Stick hab hab ich vergessen. ^^
http://wikiparser.iv-interactive.de
Bin mir nur nicht mehr sicher wie genau ich mit HTML in HTML war.

[C #] Regex Zahlenkette ohne feste laenge

majoko

Grünschnabel

Spyke

majoko

Grünschnabel

Turri

Erfahrenes Mitglied

CPoly

Mitglied Weizenbier

Spyke

Neue Beiträge