Dateien parsen

C

chysm

Hallo zusammen,
habe eine Frage bezüglich des Parsens einer Datei.
Zwar muss ich im Rahmen meiner Diplomarbeit unter anderem auch Dateien (Excel, CSV) mit Dateninhalten für ein Data Warehouse vor der Integration auf Korrektheit prüfen.

Punkte dafür sind:

-Einhalten einer vorgegeben Feldreihenfolge (also Spaltenreihenfolge)
-Einhalten von Namenskonventionen für den Header
-Einhalten von Formaten(alphanumerisch, numerisch, datum/zeit)

Problem ist, dass die Struktur für die Datums- und Zeitfelder variieren kann also Bsp:
01.01.2009
01.2009
22:22
22:00:00
u.s.w.

Gibt es eventuelle Api's die ich dazu verwenden könnte bzw. kann jemand mal sagen wie er an die Sache rangehen würde, wäre mir eine große Hilfe!

MFG

Chysm
 
Mir klingt das (wenn man Java benutzen will) sehr nach einem Problem für StringTokenizer und regülären Ausdrücken (Regular Expressions).

Mit einem StringTokenizer-Objekt kann man Strings zerteilen (perfekt für csv-Datein) und mit regulären Ausdrücken kann man String wie ein Datum, Uhrzeit, E-Mail-Adresse usw. leicht in einem längeren String finden bzw. überprüfen ob ein String ein Datum oder eine Urzeit usw. ist.
 
Zuletzt bearbeitet:
StringTokenizer soll schon seit langem nicht mehr genutzt werden (siehe API-Doc).

Bei Excel-Dateien solltest du ja das korrekte Datum schon über die JExcel o.ä. API bekommen können.

Bei CSV Dateien kannst du diese Zeilenweise einlesen und mit split auf der Zeile diese in die einzelnen Felder unterteilen. Danach kannst du mit dem SimpleDateFormat Datum/Zeit parsen.
 
StringTokenizer soll schon seit langem nicht mehr genutzt werden (siehe API-Doc)

JAVA-DOC zu StringTokenizer:
StringTokenizer is a legacy class that is retained for compatibility reasons although its use is discouraged in new code. It is recommended that anyone seeking this functionality use the split method of String or the java.util.regex package instead.

Man lernt nie aus ;)
 

Neue Beiträge

Zurück