• Apfeltalk ändert einen Teil seiner Allgemeinen Geschäftsbedingungen (AGB), das Löschen von Useraccounts betreffend.
    Näheres könnt Ihr hier nachlesen: AGB-Änderung
  • Viele hassen ihn, manche schwören auf ihn, wir aber möchten unbedingt sehen, welche Bilder Ihr vor Eurem geistigen Auge bzw. vor der Linse Eures iPhone oder iPad sehen könnt, wenn Ihr dieses Wort hört oder lest. Macht mit und beteiligt Euch an unserem Frühjahrsputz ---> Klick

Auf "OCR" in PDF - vorhanden?- prüfen

HaubenTaucher

Carola
Registriert
10.05.16
Beiträge
109
Moin,
ich möchte gerne mit einem Script prüfen, ob sich im PDF schon OCR Layer befinden.
Wie ich meine zu wissen sucht man in dem Dokument das Wort "Font". Das kann man mit grep ja fein machen.
Aber ich bin mir bei machen Dokumenten halt nicht wirklich sicher, ob das Ergebnis meiner grep-Suche wirklich stimmt.
Darum möchte ich gerne - z.B. mit einem Editor - das Dokument überprüfen und nach "Font" suchen.
Stellt sich nur die Frage, mit welchem Editor man das machen kann?
Kann mir da von Euch mal jemand einen Tipp geben? Am besten einen, der Freeware ist. Nur für das Abtesten von einigen Ergebnissen möchte ich nicht gerade viel Geld ausgeben.

Vielen Dank im Voraus.
Gruß
Rolf
 

MACaerer

Charlamowsky
Registriert
23.05.11
Beiträge
12.987
Ich bin mir nicht sicher ob ich dein Anliegen richtig verstanden habe. Aber wenn um eine Textsuche in einem Pdf-Dokument geht, lässt sich das problemlos mit der Vorschau.app machen. Man braucht also gar kein Fremdprogramm. Voraussetzung ist natürlich, dass das Dokument, aus dem das Pdf erstellt wurde, auch ein Text-Dokument war oder zumindest Text enthalten hat. Ein BitMap-Dokument (Scan) geht natürlich nicht.

MACaerer
 
Zuletzt bearbeitet:
  • Like
Reaktionen: HaubenTaucher

HaubenTaucher

Carola
Registriert
10.05.16
Beiträge
109
Hej Macaerer,
ich habe mich anscheinend nicht klar genug definiert...
Ich versuch es nochmal...
Um festzustellen, ob in einem PDFdokument OCR auf einem Layer vorhanden ist, soll es - lt. einiger Beiträge im Netz - in dem Dokument einen Eintrag - und nicht auf dem PDFdokument - innerhalb der Datei geben, wo die Schrift definiert ist. Dazu benutzt mal anscheinend das Wort "Font". Wenn man dieses Wort - also nicht sichtbar im PDF-Dokument lesbar mit z-B. AdobePDFreader lesbar - in der Datei (also Hex) findet, dann enthält diese Datei OCR und wäre durchsuchbar.
Lässt man per script und grep eine suche in der Datei laufen und findet "Font", dann soll angeblich OCR enthalten sein.
Jetzt habe ich ein paar Ergebnisse, die mich aber zweifeln lassen. Darum möchte ich mit einem Editor - also nicht AcrobatReader - tief in die Datei schauen und dort "händisch" nach "Font" suchen um meine Zweifel bzw. Ergebnisse zu bestätigen (oder nicht), welche ich mit grep erhalten habe. Kann ja auch sein, dass grep von mir falsch angewendet wurde, einen Match auf Font liefert, es trotzdem aber nicht stimmt. Mir geht es also um die Verifizierung.
Ich hoffe, es ist etwas klarer geworden?

Schönen Vatertag...
HG
Rolf
 

trexx

Mecklenburger Orangenapfel
Registriert
01.04.13
Beiträge
2.977
Dann den oben genannten Editor nutzen. aber grep ist schon ziemlich genau...
Hier eine kurze Anleitung zu regulären Ausdrücken. https://wiki.ubuntuusers.de/grep/
Erstelle doch sonst einfach eine Testdatei und lass grep drauf los.
 

ottomane

Golden Noble
Registriert
24.08.12
Beiträge
16.383
Das textuelle Öffnen des PDF-Dokuments geht mit Textpad. Rechtklick im Finder->Öffnen mit->Anderes programm->Textpad.

Dort findest du dann "Font" in diversen Konstellationen.
 
  • Like
Reaktionen: HaubenTaucher

HaubenTaucher

Carola
Registriert
10.05.16
Beiträge
109
kann es sein, dass Du Textedit meinst? Textpad habe ich bei mir gar nicht? Oder hast Du das zusätzlich geladen?