Hallo,
vorweg bitte das Thema ggf. in die richtige Rubrik verschieben.
Leider hat mir die Suchfunktion zum Begriff PDF nichts ausgeworfen, ich hätte dann die mit den meisten Treffern genommen ;-)
Hat jemand einen Ansatz wie man mit einem kleinen Script oder Opensourcetool herausfinden kann ob eine PDF-Datei lesbaren Text enthält oder ein gescanntes Images ist und daher eine OCR benötigen würde?
Zum Thema OCR: Gibt es eine vergleichbare Alternative zu Tesseract, bestenfalls ebenfalls Opensource?
Was mich an Tesseract etwas stört (auch wenn die Ergebnisse wirklich Top sind ist, daß das Programm nicht ohne weiteres gleich PDF schluckt. Umwandeln in Tiff und später evtl wieder zurück in eine "lesbare" PDF find ich etwas umständlich.
Das Ganze sollte von der Command-Line aus unter Win7 (ohne Adminrechte) funktionieren!
Gruß
_opiWahn_
vorweg bitte das Thema ggf. in die richtige Rubrik verschieben.
Leider hat mir die Suchfunktion zum Begriff PDF nichts ausgeworfen, ich hätte dann die mit den meisten Treffern genommen ;-)
Hat jemand einen Ansatz wie man mit einem kleinen Script oder Opensourcetool herausfinden kann ob eine PDF-Datei lesbaren Text enthält oder ein gescanntes Images ist und daher eine OCR benötigen würde?
Zum Thema OCR: Gibt es eine vergleichbare Alternative zu Tesseract, bestenfalls ebenfalls Opensource?
Was mich an Tesseract etwas stört (auch wenn die Ergebnisse wirklich Top sind ist, daß das Programm nicht ohne weiteres gleich PDF schluckt. Umwandeln in Tiff und später evtl wieder zurück in eine "lesbare" PDF find ich etwas umständlich.
Das Ganze sollte von der Command-Line aus unter Win7 (ohne Adminrechte) funktionieren!
Gruß
_opiWahn_