Pdf Dateien mit Java lesen

Thomas Darimont

Erfahrenes Mitglied
Servus Leute!

Hab vor einiger Zeit das Problem gehabt, dass ich Pdf Dateien nach einer bestimmten Zeichenfolge durchsuchen musste...

Bsp.:
RechnungsNr: 893383838

das Ganze sollte in Java geschehen und möglichst nichts Kosten...
ich habe ne ganze Weile gesucht und auch einige kommerzielle Anbieter gefunden die aber leider alle nicht ganz umsonst waren (450$ - 900$) nur für die Lib, doch dann bin ich hieruf gestossen:

http://jrsvp.sourceforge.net/

ist soweit ich gesehen hab GPL und darf somit auch modifiziert werden...
Da es nur für den internen Gebrauch benutzt wird, muss ich mir nun auch keine Gedanken darüber machen, dass meine Software dadurch automtisch auch unter GPL gestellt wird...

Gruss Tom
 
ich hab das posting von dir mit dem auslesen in java gefunden und ich bräuchte das unbedingt :)

kannst du mir vielleicht helfen warum es bei mir nicht geht?

also
der source:

public void testMain(Object[] args) throws Exception
{
// UNERLEDIGTE AUFGABE: Code hier einfügen
File f = new File("C:\\a.pdf");
TextReader tr = new TextReader();
//System.out.println(tr.canHandleType(f));
WordFieldVector wv = tr.read(f);

String s = tr.read(f).getSentence(3);

//String s1 = new String(s.getBytes("UTF16"), "ISO8859_1");

System.out.println(tr.read(f).toString());
System.out.println(s);
}

ich bekomme immer einen kryptischen fehlercode, jedoch mit tr.canHandleType kommt true raus - also ist das pdf nicht defekt - oder
würd mich echt auf eine antwort von dir freuen anbei so wies bei mir ausschaut:

http://www.narf.at/~axid/rational.PNG

p.s.: ned erschrecken rational ist das gleiche wie eclipse 3.0
danke
 
Hallo!

In den letzten 2 Jahren hat sich da eine ganze Menge getan:
http://schmidt.devlib.org/java/libraries-pdf.html

Mit der PDFBox kann man beispielsweise so den textuellen Inhalt eines PDF Dokuments auslesen:
Code:
 /**
  * 
  */
 package de.tutorials;
 
 import java.io.File;
 import java.io.FileInputStream;
 
 import org.pdfbox.pdfparser.PDFParser;
 import org.pdfbox.pdmodel.PDDocument;
 import org.pdfbox.util.PDFTextStripper;
 
 /**
  * @author Tom
  * 
  */
 public class PdfBoxExample {
 
 	/**
 	 * @param args
 	 */
 	public static void main(String[] args) throws Exception {
 		PDFParser parser = new PDFParser(new FileInputStream(new File(
 				"c:/jdi.pdf")));
 		parser.parse();
 		PDDocument doc = parser.getPDDocument();
 
 		PDFTextStripper stripper = new PDFTextStripper();
 		String textContent = stripper.getText(doc);
 		
 		System.out.println(textContent);
 		
 		doc.close();
 	}
 }

Gruß Tom
 
Hmm, schau ich mir mal bei gelegenheit an. Danke für den Tipp, hab bis jetzt immer nur mit iText gearbeitet um PDF dateien zu erstellen, verändern und auszulesen.

Gruss,

Torsten
 

Neue Beiträge

Zurück