PDF nach TXT

deepersky · 30. September 2013

Hallo Allerseits
Ich habe für die Uni eine tolle Aufgabe zu erledigen

Hörte sich einfach an jedoch beim Umwandeln einer mehrseitigen PDF in eine .txt Datei, soll ich dies ab einem bestimmten Wort bis zu einem bestimmten Wort tun. So gesehen die Einleitung und den Schluß weglassen.
Ich habe mittels iText dies versucht jedoch weiß ich nicht genau zwecks mangelnder Programmierkenntnisse

wie genau ich den cut ab dem bestimmten Wort bis zum anderen tun muss.

Ich kann momentan nach mehreren Stunden nur die PDF komplett in eine Textdatei umwandeln. Hat jemand Rat und kann mir bitte weiterhelfen?

Code:

/
** Die orginale PDF datei die geparsed wird. */
	public static final String PREFACE = "C:/PDFs/ABC.pdf";
	/** Das Ergebniss, die Textdatei. */
	public static final String RESULT = "C:/TXT/ABC.txt";

    /**
     * Main method.
     * @param    args    no arguments needed
     * @throws IOException
     */
	public static void main(String[] args) throws IOException {
		new ExtractPageContent().parsePdf(PREFACE, RESULT);
	}
   /**
     * Parses a PDF to a plain text file.
     * @param pdf the original PDF
     * @param txt the resulting text
     * @throws IOException
     */
	public void parsePdf(String pdf, String txt) throws IOException {
		PdfReader reader = new PdfReader(pdf);
		PdfReaderContentParser parser = new PdfReaderContentParser(reader);
		PrintWriter out = new PrintWriter(new FileOutputStream(txt));
		TextExtractionStrategy strategy;
		for (int i = 1; i <= reader.getNumberOfPages(); i++) {
			strategy = parser.processContent(i,
					new SimpleTextExtractionStrategy());
			out.println(strategy.getResultantText());
		}
		out.flush();
		out.close();
		reader.close();
		System.out.println(
	            "Fertig");
    }
}

PDF nach TXT

deepersky

Grünschnabel

Neue Beiträge