Auf "OCR" in PDF - vorhanden?- prüfen

HaubenTaucher

Cox Orange
Mitglied seit
10.05.16
Beiträge
97
Moin,
ich möchte gerne mit einem Script prüfen, ob sich im PDF schon OCR Layer befinden.
Wie ich meine zu wissen sucht man in dem Dokument das Wort "Font". Das kann man mit grep ja fein machen.
Aber ich bin mir bei machen Dokumenten halt nicht wirklich sicher, ob das Ergebnis meiner grep-Suche wirklich stimmt.
Darum möchte ich gerne - z.B. mit einem Editor - das Dokument überprüfen und nach "Font" suchen.
Stellt sich nur die Frage, mit welchem Editor man das machen kann?
Kann mir da von Euch mal jemand einen Tipp geben? Am besten einen, der Freeware ist. Nur für das Abtesten von einigen Ergebnissen möchte ich nicht gerade viel Geld ausgeben.

Vielen Dank im Voraus.
Gruß
Rolf
 

MACaerer

Pfirsichroter Sommerapfel
Mitglied seit
23.05.11
Beiträge
12.574
Ich bin mir nicht sicher ob ich dein Anliegen richtig verstanden habe. Aber wenn um eine Textsuche in einem Pdf-Dokument geht, lässt sich das problemlos mit der Vorschau.app machen. Man braucht also gar kein Fremdprogramm. Voraussetzung ist natürlich, dass das Dokument, aus dem das Pdf erstellt wurde, auch ein Text-Dokument war oder zumindest Text enthalten hat. Ein BitMap-Dokument (Scan) geht natürlich nicht.

MACaerer
 
Zuletzt bearbeitet:
  • Like
Wertungen: HaubenTaucher

HaubenTaucher

Cox Orange
Mitglied seit
10.05.16
Beiträge
97
Hej Macaerer,
ich habe mich anscheinend nicht klar genug definiert...
Ich versuch es nochmal...
Um festzustellen, ob in einem PDFdokument OCR auf einem Layer vorhanden ist, soll es - lt. einiger Beiträge im Netz - in dem Dokument einen Eintrag - und nicht auf dem PDFdokument - innerhalb der Datei geben, wo die Schrift definiert ist. Dazu benutzt mal anscheinend das Wort "Font". Wenn man dieses Wort - also nicht sichtbar im PDF-Dokument lesbar mit z-B. AdobePDFreader lesbar - in der Datei (also Hex) findet, dann enthält diese Datei OCR und wäre durchsuchbar.
Lässt man per script und grep eine suche in der Datei laufen und findet "Font", dann soll angeblich OCR enthalten sein.
Jetzt habe ich ein paar Ergebnisse, die mich aber zweifeln lassen. Darum möchte ich mit einem Editor - also nicht AcrobatReader - tief in die Datei schauen und dort "händisch" nach "Font" suchen um meine Zweifel bzw. Ergebnisse zu bestätigen (oder nicht), welche ich mit grep erhalten habe. Kann ja auch sein, dass grep von mir falsch angewendet wurde, einen Match auf Font liefert, es trotzdem aber nicht stimmt. Mir geht es also um die Verifizierung.
Ich hoffe, es ist etwas klarer geworden?

Schönen Vatertag...
HG
Rolf
 

trexx

Kalterer Böhmer
Mitglied seit
01.04.13
Beiträge
2.872
Dann den oben genannten Editor nutzen. aber grep ist schon ziemlich genau...
Hier eine kurze Anleitung zu regulären Ausdrücken. https://wiki.ubuntuusers.de/grep/
Erstelle doch sonst einfach eine Testdatei und lass grep drauf los.
 

ottomane

Signe Tillisch
Mitglied seit
24.08.12
Beiträge
13.683
Das textuelle Öffnen des PDF-Dokuments geht mit Textpad. Rechtklick im Finder->Öffnen mit->Anderes programm->Textpad.

Dort findest du dann "Font" in diversen Konstellationen.
 
  • Like
Wertungen: HaubenTaucher

HaubenTaucher

Cox Orange
Mitglied seit
10.05.16
Beiträge
97
kann es sein, dass Du Textedit meinst? Textpad habe ich bei mir gar nicht? Oder hast Du das zusätzlich geladen?