Texterkennung OCR in vorhandenen pdfs

paul.mbp

Lane's Prinz Albert
Registriert
20.06.09
Beiträge
4.937
Ich suche eine App zur Texterkennung in bereits gescannten Apps.
Diese habe ich bereits auf dem iPad und würde die pdf nun gerne als durchsuchbare pdf verwalten.

Gibts da eine App ?

Die meisten "Scanner" Apps verarbeiten nur Fotos, und keine vorhandenen pdf :(
Eine App die OCR in bestehenden pdf ermöglicht ist scan+, aber deren OCR Ergebnis ist nicht so besonders.

Kennt jemand ne gute Texterkennung um gescannte pdf in durchsuchbare pdf zu verwandeln ?
 

MACaerer

Charlamowsky
Registriert
23.05.11
Beiträge
12.987
Ein Scanner erzeugt erst mal aus der Vorlage ein Bitmap und macht dann erst ein pdf daraus. Das Bitmap ist aber immer noch die Basis des pdf, daher kannst du es auch problemlos und ohne Qualitätsverlust zurück in ein Bitmap exportieren, z. B. mit der Vorschau. Aus dem Bitmap lässt sich dann mit jedem beliebigen OCR-Programm, z. B. Prizmo oder Abbey Fine Reader der Text extrahieren. Voraussetzung ist natürlich eine entsprechend hohe Auflösung des Scans, sonst verbringst du mehr Zeit mit der Fehlerkorrektur als mit dem Neuschreiben.

MACaerer
 

Scotch

Bittenfelder Apfel
Registriert
02.12.08
Beiträge
8.029
Für iOS kenne ich auch keine App - je nach Umfang und Art des Dokuments ist OCR auch durchaus eine anspruchsvolle Anwendung (braucht CPU-Leistung und bei großen Dokumenten auch RAM).

Zum konvertieren auf dem Mac nutze ich Devonthink, welches den auch von @MACaerer empfohlenen FineReader als Engine nutzt.
 

paul.mbp

Lane's Prinz Albert
Registriert
20.06.09
Beiträge
4.937
Devonthink hatte ich auch ins Auge gefasst… aber ich muss zugeben, ich bin faul ;)

Wenn bei mir Post eintrudelt, dann landet diese im iX500 Scanner und direkt als pdf im iPad. Das geht schneller als den iMac und Devonthink zu starten. Vorallem weil die pdfs danach eh aufs iPad sollen, dort arbeite ich damit. Bislang hab ich mir halt immer Mühe gegeben die pdfs sinnstiftend zu benennen. Aber die Bequemlichkeit einer durchsuchbaren Datei erreiche ich damit leider nicht.

Nun ist halt mein Wunsch neben der Benennung auch den Inhalt als Suchkriterium zu haben.

Übrigens, die Arbeit mit den pdfs auf dem iPad ist auch etwas was gegen Devonthink spricht. Deren App ist nur rudimentär und bietet nicht die Möglichkeiten wie z.B. PDFexpert.

Ein Feature ist richtig gut: man kann jedes einzelne pdf in pdf expert per link ansprechen. Diese Links nutze ich dann im Omnifocus um in einer Aufgabe / in einem Projekt auf das zugehörige pdf zu verweisen.
 

ottomane

Golden Noble
Registriert
24.08.12
Beiträge
16.375
Ein Feature ist richtig gut: man kann jedes einzelne pdf in pdf expert per link ansprechen. Diese Links nutze ich dann im Omnifocus um in einer Aufgabe / in einem Projekt auf das zugehörige pdf zu verweisen.

Am Rande: Danke für den Tipp :)
 

bmonno

Gloster
Registriert
05.08.05
Beiträge
64
Ich nutze PDFScanner. Kann auch PDF-Bilder direkt verarbeiten, legt den Text hinter das Bild und macht ihn dadurch such-, kopier und indizierbar.
 

paul.mbp

Lane's Prinz Albert
Registriert
20.06.09
Beiträge
4.937
@bmonno wie heisst die App genau ? Wenn man pdf scanner im AppStore sucht bekommt man ein quasi endloses Angebot an scan apps angezeigt ;)

Die einzige App die ich gefunden habe die nachträglich auch mit bestehenden pdfs arbeitet ist PDFpen scan+
Alle anderen starten zwangsläufig die Kamera oder greifen auf die Fotomediathek zu, pdf auswählen nicht möglich :(

Wäre klasse wenn Du den iTunes Link der App einstellen könntest. Danke
 

bmonno

Gloster
Registriert
05.08.05
Beiträge
64
die Software heißt wirklich PDFScanner, die Web-Adresse
http://www.pdfscannerapp.com/

oooh, bin wohl auf dem falschen Weg gewesen, apps gibt es auch auf dem Mac und im AppStore, nicht nur in iTunes. Entschuldigung.
 

paul.mbp

Lane's Prinz Albert
Registriert
20.06.09
Beiträge
4.937
OK… auf dem Mac.

Ich möchte meinen "paperless" workflow gerne in der "Post PC Ära" aufbauen. Das heisst: vom Scanner ins iPad und dort verwaltet + gesichert. Evtl. im Sync mit anderen iOS devices
 

GREYAchilles

Gelbe Schleswiger Reinette
Registriert
18.03.12
Beiträge
1.749
Lies dir doch mal die Beschreibung der App Office Lens durch. Könnte womöglich etwas für dich sein...
 

paul.mbp

Lane's Prinz Albert
Registriert
20.06.09
Beiträge
4.937
Danke für den Hinweis, aber Microsoft Konto und zwangsweiser upload zu MS sind nicht optimal
Vorhandene pdf scannen kann die App leider auch nicht.
 

C=Mac

Wohlschmecker aus Vierlanden
Registriert
18.08.07
Beiträge
243
Ist zwar schon alt, aber passt ;)

Such nämlich auch nach einem Programm welches vorhandene PDF's durchsuchbar macht.

Es muss sonst nix können.

Und es sollte auch nicht gleich >100 Euro kosten.

Wie sieht es aus, gibt es so was überhaupt?

Gruss C=Mac.
 

paul.mbp

Lane's Prinz Albert
Registriert
20.06.09
Beiträge
4.937
scan+ kann nachträglich OCR über vorhandene pdf laufen lassen

p.s. zur Aktualisierung obiger Aussagen: bei mir läuft jetzt devonthink, und das sehr zufriedenstellend
 

Man In Red

Rheinischer Krummstiel
Registriert
13.01.07
Beiträge
387
Ich würde mir mal Evernote ansehen. Da kannst Du die Dokumente auch gleich verwalten.
 

paul.mbp

Lane's Prinz Albert
Registriert
20.06.09
Beiträge
4.937
ja, Evernote macht das auch recht gut.

Man muss dann damit leben das dort ein Anbieter mitliest bzw. potentiell die Möglichkeit dazu hat
 

rediman

Idared
Registriert
09.11.07
Beiträge
25
OK… auf dem Mac.

Ich möchte meinen "paperless" workflow gerne in der "Post PC Ära" aufbauen. Das heisst: vom Scanner ins iPad und dort verwaltet + gesichert.

Der Thread ist schon ein paar Tage alt.
Ich stehe gerade vor dem gleichen Problem.
Wichtig wäre auch nachträglich OCR über vorhandene PDF laufen zu lassen.
Hast du dazu letztlich eine Lösung finden können, ohne dabei einen Rechner als
Zwischenstation verwenden zu müssen.
Ich meine damit: Scannen als PDF. Dann auf einem Rechner um OCR auszuführen
meist beim Scannen durch die vorhandene Software oder dgl..
Wäre dankbar für einen Erfahrungsaustausch!!

Beste Grüße, rediman
 

MACaerer

Charlamowsky
Registriert
23.05.11
Beiträge
12.987
Wenn ein Pdf aus einem Textdokument erstellt wurde kann auch der Acrobat Reader daraus wieder ein editierbares Text-Dokument erzeugen. Bei einem Scan ist das aber etwas anderes. Ein Scanner tastet die Helligigkeitsunterschiede einer Papiervorlage zeilenweise ab und erzeugt daraus ein BitMap (Bilddatei). Wenn der Scanner aus dem Dokument ein Pdf erzeugt ist es immer noch ein BitMap, beim dem letztendlich nur der Datei-Header und die Extension angepasst wurde. Um daraus editierbaren Text zu machen braucht man eben ein OCR-Programm, ohne einen leistungsfähigen Rechner geht da also gar nichts. Damit das auch halbwegs gut funktioniert muss der Scann einige Voraussetzung erfüllen. Zum Beispiel hohe Auflösung und hoher Kontrast zwischen Papier und Textzeichen, also kein Farbscan sondern ein Schwarzweiß-Scan. Auch sind Serifen-Schriften oft nur schwer zu analysieren, weil die Textzeichen durch die Serifen oftmals ineinanderfließen und damit vom OCR-Programm schwer zu erkennen sind.

MACaerer
 
  • Like
Reaktionen: Balkenende

rediman

Idared
Registriert
09.11.07
Beiträge
25
[QUOTE="MACaerer[/QUOTE]

Besten Dank für die Erläuterung. Ich verwende hier einen Fujitsu ScanSnap iX500.
Beim zuätzlichen Scannen vom Smartphone oder Ipad aus direkt, verwende ich die
App "Scanner Pro", mit erstaunlich guten Ergebnissen. Vorausgetzt sind Vorlagen in
entsprechender Qualtität, versteht sich. Die App kann nur nicht bereits vorhandene
PDF (vormals Bitmap) mit OCR bearbeiten. Daher dachte ich eben, das es eine App
geben könnte, die OCR über vorhandene PDF (vormals Bitmap) laufen zu lassen.
Im Ergebnis wir es sicher Abstriche in der Qualität geben. Das ist mir klar. Ist sonst
aber sich keine Seltenheit.
 

paul.mbp

Lane's Prinz Albert
Registriert
20.06.09
Beiträge
4.937
ich habs eine zeitlang mal nur mit scanner + app + ipad gemacht, ist aber bei weitem nicht so bequem wie mit nem Rechner…

aktuell läuft bei mir ein macmini 24/7 als Server. Der iX500 scannt ins devonthink und dort verwalte ich allen Papierkram.

der macmini läuft nicht nur dafür sondern auch für backups , fotomediathek etc…

benutzt wird allerdings hauptsächlich mein iPad
 

68olds98

Granny Smith
Registriert
20.06.14
Beiträge
16
Schau Dir mal die App fileee an. Ich hab sie selber noch nicht getestet, aber ein Freund hat sie mir empfohlen. Soweit ich das überblicken kann, macht sie genau, was du willst.