• Es gibt nach dem Softwareupdate eine Reihe von Änderungen und Neuerungen in unserem Forum. Genaueres dazu findet Ihr in dieser Ankündigung. Hinweise, Kritik, Anregungen, Lob und Tadel bitte hier diskutieren.

Chaos in Tabelle Nach Konvertierung von PDF in TXT

lowflyer7

Cripps Pink
Mitglied seit
29.01.08
Beiträge
152
Hallo zusammen,

ich habe eine Website, bei der ich unterschiedliche PDF-Dateien auslese und die Daten weiterverarbeite. Bislang habe ich dafür pdftotext aus den poppler-utils oder Ghostscript auf meinem Linux-Server verwendet. Das funktionierte auch bislang ganz gut. Jetzt habe ich jedoch einen PDF-Typ, bei dem ich nicht weiter komme.

In der PDF befindet sich eine Tabelle mit 31 Spalten (für jeden Tag des Monats eine), darunter befindet sich jeweils ein Feld mit Informationen zu diesem Tag.

Wenn ich die Datei allerdings umwandle, zerpflücken mir sowohl pdftotext und Ghostscript das Datenfeld in einzelne Zeilen und ich habe dann mehrere Zeilen, in denen sich hintereinander die Daten aller Tage befinden. Hier ein Beispiel:

01Jan02Jan03Jan
abc
zxyw
defgh

654
ij
vu
321

Daraus macht mir sowohl pdftotext als auch Ghostscript, dann etwas in der Art:

Code:
table[1] = "01Jan 02Jan 03Jan"
table[2] = "abc defgh ij"
table[3] = "zxyw vu"
table[4] = " 654 321"
Ich habe schon mehrere Versuche unternommen, die Informationen in den Zeilen wieder den Spalten zuzuordnen, aber da die Stringlänge immer unterschiedlich ist und die Anzahl der Leerzeichen auch variiert, bin ich mit meinem Latein echt am Ende. Hat jemand vielleicht eine Idee, was ich sonst noch versuchen könnte?

Vielen Dank!

Andreas