Einfacher PDF-Indexer für Datenblätter

DH1AAD ,Ingo Gerlach , 18.04.2014, e-Mail : Ingo Gerlach


1.0 Beschreibung , nur Linux !


Die vielen PDF-Datenblätter auf meiner Festplatte mal zu sichten, stand eigentlich schon lange auf der ToDo-Liste...
Im laufe der Jahre hat sich ja doch einiges angesammelt.
Die Idee war nun, alle Datenblätter in eine Datenbank einzulesen um danach einfach und schnell suchen zu können.
Es entstand daher dieses einfache Python-Tool.
Hiermit lassen siche einzelne PDFs, Verzeichnisse oder eine Fileliste einlesen. Das einfachste ist der Import mit einer Fileliste. Ein

locate -i pdf | grep Datenblaetter > import.dat

erzeugt eine Liste "import.dat" die dann nur noch importiert werden muss.
Leider kann das verwendete PyPdf nicht alle PDFs auch oeffnen, in diesem Fall, wird aber dennoch ein Eintrag angelegt.
Es kann dann immer noch nach dem Namen gesucht werden.
Bei der Suche wird die MySql-Volltextsuche verwendet.
Es werden hier die Spalten PDF_NAME,PDF_TITEL und PDF_SUBJECT berücksichtigt.
Das Wildcardzeichen ist ein "*" .

ToDo: Konfigurations-Datei um den DB-Zugang und den zu verwendenen PDF-Reader konfigurierbar zu machen.


Die Python-Sourcen sind hier zu finden: Sourceforge Download PDF-Indexer

Für den Einsatz werden zusätzlich benötigt:
Python MySql-Lib
Python PdfInfo



© Ingo Gerlach, DH1AAD, 18.04.2014
E-Mail bitte an:Ingo Gerlach
Counter