Dokument perfekt digitalisieren? OCR? Manuell erstellen?

multimolti

Erfahrenes Mitglied
Hallo!

Ich habe ein Dokument in Papierform, welches Tabellen, kleine Grafiken, Texte und auch etwas Handschrift enthält. Diese Dokument möchte ich jetzt in einer bearbeitbaren Form digitalisieren, also der Text soll nachher auch wirklich Text sein, den man verändern kann.
Wie mache ich das am Besten? Ich denke, die meisten OCR-Programme werden damit nicht klarkommen. Das manuell in Word nachzubauen würde ewig dauern, bei anderen Programmen ist das wahrscheinlich entsprechend... Vielleicht mit InkScape "abpausen" oder so?

Mein Output-File soll nachher auch vom PC editierbar sein, d.h. es muss in irgendeinem Format sein, dass ein selbstgeschriebenes Programm editieren kann (Latex ginge, Word sogar auch, PDF vielleicht, SVG wahrscheinlich auch).

Wie mache ich das mit dem wenigsten Aufwand?

EDIT:
Habe es geschafft, wie lest bitte weiter unten, hier ist was ich damit erreichen wollte:
http://plupp.weg/
Der Link wurde aus den unten genannten Gründen entfernt.
Wir distanzieren uns von solchen Inhalten!
 
Zuletzt bearbeitet:
Ich kenne für so etwas nur OCR-Software.
Wenn Programme wie Inkscape das "abpausen", erhälst du Vektoren und kannst diese nicht in bekannter Textform bearbeiten.

Grüße Marco
 
Nein, ich kann in Inkscape ja einfach nur die Tabellen nachmalen und den Text als Text-Bausteine reintun, das wiederrum ist dann bearbeitbar. Nur würde das wahrscheinlich doch 1. recht lange dauern und 2. kann man das glaube ich nicht abpausen, oder? Gibt es eine Möglichkeit, das eingescannte Originaldokument halb-transparent in den Hintergrund zu tun?
 
Ich habe ein Dokument in Papierform, welches Tabellen, kleine Grafiken, Texte und auch etwas Handschrift enthält. Diese Dokument möchte ich jetzt in einer bearbeitbaren Form digitalisieren, also der Text soll nachher auch wirklich Text sein, den man verändern kann.
Wie mache ich das am Besten? Ich denke, die meisten OCR-Programme werden damit nicht klarkommen.
Gute OCR-Programme bieten die Möglichkeit, Texte, Tabellen und Grafiken als solche zu markieren (sofern die automatische Erkennung versagt). Wenn der Aufwand der manuellen Rekonstruktion zu hoch ist, wird sowieso kein Weg an OCR vorbei führen.

Grüße, Matthias
 
Ist das Original so komplex, das ein "Nachbauen" mit einem Office-Programm so aufwändig wäre?
Da ich persönlich nicht mit Inkscape arbeite, kann ich nicht genau sagen wo, gehe aber fest davon aus, das man dort Bilder auch transparent schalten kann.

Vielleicht ist es möglich das Dokument zumindest in Teilen hier zu zeigen. Dann könnte man besser nach eine Lösung suchen.

Grüße Marco
 
Aaaaaaaalso... ich habe euren Rat beherzigt und es mal mit einem OCR-Programm probiert.. ABBYY Fine Reader hat ganz gute Dienste geleistet und mir die grundsätzlichen Sachen digitalisiert, ein paar kleine Schreibfehler waren drin, aber nicht weiter schlimm, eher schlimm war dass er 2 von den 5 Tabellen nicht erkannt hat, und dass der Export zu Word 2003/2007 nicht ging (zumindest hat Word immer nur zerhackstückelten Mist angezeigt).
PDF-Export ging einwandfrei, habe dann mit dem Foxit PDF Editor in einer stundenlangen Feinstarbeit die Tabellen nachgebaut und andere Feinheiten (z.B. Hintergrundschattierungen) ergänzt...
Jetzt habe ich das mit einem Aufwand von ca. 2-3h komplett digitalisiert, sieht auch recht gut aus!

Nächste Frage: Kann ich ein PDF vernünftig von einem Programm editieren lassen?

Wahrscheinlich nicht soo toll, da PDF binär ist und ich damit immer auf die Länge des Textes achten muss (kann den Originaltext "asdaf" im PDF nicht problemlos durch "blablubbbla" ersetzen)...
Kann man PDFs in irgendein besseres Format konvertieren? (Okay, die Frage gehört nicht wirklich hier her, aber egal...)
... und es hatte schon seine Gründe, warum ich nicht einen Beispielausschnitt aus dem Dokument hier hochgeladen habe ;-)
 
Hi,
also PDFs kannst du recht weitestgehend mit dem Acrobat von Adobe bearbeiten. Ist soweit ich weiß auch das einzigste Programm welches das so in der Form anbietet.
Adobe hat halt nach wie vor auf gewisse Dinge den Daumen drauf. Texte sollten nur im kleinen Rahmen bearbeitet werden da sonst echt kritisch werden kann da Umbrüche und so nicht mehr funktionieren. Also ein Programm mit dem du Tabellen innerhalb einer PDF erzeugst wirst du wohl nicht finden.

Es gibt da noch das Programm PDF Editor mit dem man auch PDFs bearbeiten kann, aber ich weiß jetzt nicht in welchem Maße.

Fine Reader is tbisher das beste OCR was ich kenne und ich habe schon eine Menge ausprobiert. Finereader hat aber soweit ich weiß auch einen Tabellenmodus drinnen. Wenn dieses Prog das nicht erkennt dann wirst du wohl nicht drum herumkommen die Tabelle nochmal von Hand zu schreiben.

Viele Grüße
 
Dass ich die PDFs manuelle editieren kann ist mir klar, habe ich ja gemacht um die fehlenden Tabellen reinzubekommen (Adobe Acrobat habe ich jetzt nicht probiert, aber mit Foxit Editor ging's ganz gut).

Mit "mit einem Programm" editieren lassen meinte ich: Ich will ein Programm SELBER schreiben, was das PDF editieren kann, aber nur im KLEINSTEN Rahmen... also z.B. an einigen festgelegten Stellen den Text umändern, aktuelles Datum einfügen, sowas in der Richtung...
 
Hi,
also man kann in PDFs Textfelder realisieren mit denen der Betrachter arbeiten kann.

Aber mal eine Frage das was du da gemacht hast ist das nicht Urkundenfälschung? Auch wenn du darauf hinweist das die rechtlichen Folgen beim Ersteller liegen.

Gruß
 
Zurück