Stichwortregister

tuktuk

Gesperrt
Hallo
gibt es eine Möglichkeit ein Stichwortregister zu erstellen aus einem pdf, pps, doc mit den Seitezahlen und wie viele mal das Wort vorkommt?

z.b
Wort;seitenzahl;anzahl
Hurrican,27,2

Besten Dank
 
Das ist eine sehr unspezifische Frage.
Erklär doch mal genauer was du machen willst. Woher kommen die Dokumente, was für ein Format ist es genau und wie willst du das Ergebnis verarbeiten.
Für PDF habe ich zum Beispiel das gefunden: hier http://www.pdflib.com/products/tet/
Es gibt auch verschiedene Bibliotheken um PDF's z.B. in Python zu bearbeiten. Last but not least kannst du die Spezifikationen für das PDF-Format nehmen und einen Parser schreiben.
Für PPs und Word hilft vielleicht das weiter:
https://support.microsoft.com/en-us/kb/240157
 
das Format ist leider nicht immer gleich, ich habe pdf, word Dokumente und Powerpoint Dokumente. Das ziel ist es z.b aus dem pdf, sämtliche Wörter die darin vorkommen in eine Excel Tabelle oder in ein eine Textdatei abzufertigen , das ich es danach ins Excel importieren kann. Wichtig ist aber Welches Wort auf welcher Seitenzahl steht im pdf und wieviele male es vorkommt. So kann ich anhand der liste danach entnehmen das z.b das Wort Hurrican auf der Seite 27 ist im PDF.

Ich hoffe das es so eindeutiger ist.

Gruss
 
Zurück