Texterkennung OCR in vorhandenen pdfs

paul.mbp

Lane's Prinz Albert
Registriert
20.06.09
Beiträge
4.937
nee, fileee macht das gleiche wie scanner pro oder scanbot, das heisst man scannt per smartphone und nicht per ix500
 

rediman

Idared
Registriert
09.11.07
Beiträge
25
nee, fileee macht das gleiche wie scanner pro oder scanbot, das heisst man scannt per smartphone und nicht per ix500

Was mir bei "fileee"nicht klar ist, ob die OCR auf deren Server vorgenommen wird. Die App scannt einfach nur ab. Bereits vorhandene PDF kann diese offenbar nicht nachträglich einer OCR unterziehen. Genau darum ging es mir.
 

pjfry

Finkenwerder Herbstprinz
Registriert
16.06.10
Beiträge
466
Hallo zusammen,

da ich aktuell auch „iPad only“ teste und lebe suche ich nach einer Lösung. Ich habe ähnlich wie @paul.mbp einen iX500 und scanne dort per iPad app. So das ist nun der Stand der „fix“ bleiben sollte. Aber jetzt suche ich nach DER Lösung :)

Was habe ich getestet:

Variante 1
1) FineScanner nachträglich die OCR Erkennung per App durchführen lassen
2) Dann nach DEVONThink To Go geschoben

Problem:
Diese PDF ist bei mir nicht durchsuchbar oder die OCR Erkennung so schlecht, dass er nichts findet in DEVONthink



Variante 2
1) Ich scanne per ScanSnap App und schiebe das dann direkt nach Evernote

Problem:
Ich mag Evernote nicht so. Nicht weil die Daten auf einem US Server liegen (es handelt sich „nur“ um meine privaten Dokumente das ist mir egal). Aber die App an sich finde ich für eine File Struktur „unübersichtlich“


Was ich mir noch überlegt habe:

Sollte Dropbox Professional nicht auch OCR haben? Kann jemand etwas dazu sagen, ich habe nichts gefunden, dass OCR in Deutsch bestätigen würde.

Warum ich keine Scan-App verwenden möchte?
Mein Scanner ist schneller als ich mit einer App und zudem sind die Dateien teilweise riesig mit dem Scan-App. Ich habe das mal bei Fileee getestet, aber so glücklich werde ich da auch nicht.

Hat jemand noch Ideen und Vorschläge so etwas „besser“ umzusetzen? PDF Pen+ kann ja lokales OCR auf dem iPad wurde aber schon lange nicht mehr weiter entwickelt!

Vielen Dank

Benny
 

ottomane

Golden Noble
Registriert
24.08.12
Beiträge
16.375
EDIT: Meine Lösung ist NICHT iPad-Only, sorry, dass das deine Anforderung ist, hatte ich nicht gesehen.

Meine Lösung ist etwas kompliziert, kommt aber ohne App und ohne Clouds aus. Mein Scanner scannt per SMB auf mein NAS und legt dort PDF-Files ab.

Mein Mac beobachtet das Verzeichnis per Daemon auf dem NAS und sobald dort eine neue Datei erscheint, wird diese per Tesseract geOCRed und nachbearbeitet und dann als PDF-Dokument in ein anderes Verzeichnis bewegt. Beim Scanvorgang kann ich am Scanner die Dateinamenskonvention (Arztrechnung..., Versicherung..., ) vorgeben. Die Auswahl wird später zur korrekten Einsortierung in Unterverzeichnisse genutzt.

Das funktioniert vollautomatisch, aber ich muss zugeben, dass das durchaus komplex in der Einrichtung ist (Terminalkenntnisse, Scripting usw. sollten gut bekannt sein). Siehe auch http://www.morethantechnical.com/20...tools-ghostscript-hocr2pdf-and-tesseract-ocr/

Den Umweg über das NAS kann man weglassen, aber für mich ist das praktisch, da ich dann auch scannen kann, wenn der Mac aus ist.
 
Zuletzt bearbeitet:
  • Like
Reaktionen: Wuchtbrumme

pjfry

Finkenwerder Herbstprinz
Registriert
16.06.10
Beiträge
466
Vielen Dank @ottomane leider steht mir ab Montag kein Mac mehr zu verfügung. Vielleicht kann ich meine Ausführungen noch um eines ergänzen:

Ich habe noch eine NAS von Synology 3018XS -> wenn ich einen Weg finden könnte diese mit zu nutzen wäre das natürlich auch super. Aber ich habe zumindest in den angebotenen Anwendungen nichts brauchbares entdecken können!
 

pjfry

Finkenwerder Herbstprinz
Registriert
16.06.10
Beiträge
466
Vielen Dank für den Link. Ja das scheint mit durchaus etwas komplexer zu sein. iX500 auf NAS würde zwar nicht gehen, aber der Weg iX500 auf iPad dann auf NAS würde ja gehen.

Ob ich mir das mit der Einrichtung aber zutraue weiß ich noch nicht. Wobei ich mir gerade überlege, ob es nicht machbar wäre eine VM auf der NAS einzurichten, wird ja unterstützt ein Windows Server 2016 läuft bereits darauf und dort mit Linux z.B. Folder Watch und OCR einzurichten .... dann hätte ich DAU wenigsten ein GUI ... hihi

Danke schon mal für die Hilfe!
 
  • Like
Reaktionen: ottomane

ottomane

Golden Noble
Registriert
24.08.12
Beiträge
16.375
Gute Idee! Darauf bin ich gar nicht gekommen, weil meine alte Synology keine VMs beherrscht ;)
 

pjfry

Finkenwerder Herbstprinz
Registriert
16.06.10
Beiträge
466
So kurzer Zwischenstand:

Die VM einrichten (Ubuntu) war kein Problem. Aber dann blieb ich trotz langer Suche im Netz stecken und hatte keine "Lust" mehr. Daraufhin habe ich mit Abbey FineReader für Windows in der Testversion heruntergeladen und dort die Funktion "Hotfolder" eingerichtet.

Das entspricht nun fast genau meinen Wünschen (zu dem kleinen Aber komme ich gleich):

1) Ich scanne per ScanSnap App auf dem iPad via WLAN
2) Aus der ScanSnap App schiebe ich diese Scans dann per Synology Drive App in den überwachten Ordner
3) Der Abbey FineReader macht die OCR Erkennung und löscht das Original und schiebt die OCR PDF in einen neuen Ordner
4) Aus diesem Ordner schiebe ich dann die fertigen PDFs in meine Devonthink Struktur

Das alles klappte nun in meinen Test (ca. 20 Dokumente) recht gut, mit zwei kleinen "Abern":

1) Die OCR Erkennung braucht recht lange so das der Workflow ins stocken kommt
2) Die Kosten für Abbyy FineReader

Daher frage ich nun hier mal weiter :)

1) Kennt jemand eine "einfache" / verständliche Erklärung / HowTo für eine OCR Erkennung mit Ordnerüberwachung unter Linux? Ich habe zwar einige Dinge gefunden, aber keine umfängliche Anleitung die alle meine Schritte abdeckt und so kam ich schnell an meine Linux Grenzen

2) Hat jemand eine Idee wie man vielleicht mit der App Shortcuts auf dem iPad manche Abläufe automatisieren kann? Konkret geht es mir um folgendes:

Bei dem Scan in die ScanSnap App habe ich dann meine einzelnen Scans gelistet. Nun würde ich gerne alle aufeinmal in den bestimmten Ordner auf der NAS via dem Drive App von Synology verschieben und dann in der ScanSnap App löschen. Ist sowas denkbar / machbar?

Vielen Dank

Benny
 
  • Like
Reaktionen: ottomane

GrandmasterD

Braeburn
Registriert
26.07.17
Beiträge
42
EDIT: ....

Das funktioniert vollautomatisch, aber ich muss zugeben, dass das durchaus komplex in der Einrichtung ist (Terminalkenntnisse, Scripting usw. sollten gut bekannt sein).

hat man diese Kenntnisse nicht, gibt es ein sehr nettes Tool, kostet etwas aber ist jeden Cent wert, namens "Hazel" von Noodlesoft ....man kann zum Beispiel Ordner überwachen, dort eingehende PDF automatisiert OCR-Lauf (mittels PDFPENPRO) durchführen lassen, aufgrund des PDF-Inhaltes automatisiert die Datei umbenennen lassen und aufgrund der Dateibezeichnung (oder der Umbenennung automatisch diese Dokumente in Zielordner verschieben und noch viele kleine andere nette Sachen damit anstellen :) (allerdings auch nur auf Macs)
 
  • Like
Reaktionen: ottomane

pjfry

Finkenwerder Herbstprinz
Registriert
16.06.10
Beiträge
466
Update:

Ich habe mich jetzt kurzfristig dazu entschieden ABBYY FineReader zu kaufen. Der Workflow funktioniert für mich super und die Qualität der OCR ist besser als die anderen Lösungen die ich versucht habe.

Jetzt muss ich nur noch den Ablauf von der Scanner App in das Verzeichnis optimieren und ich bin glücklich. Was mir bisher auch sehr gut gefällt die PDFs bleiben schön klein.

Edit:

allerdings auch nur auf Macs
Ja das ist leider das KO Kriterium da ich kein weiteren PC oder Mac möchte
 
  • Like
Reaktionen: GrandmasterD