Tipp: Text ohne OCR aus Bildern extrahieren

Rastafari

deaktivierter Benutzer
Registriert
10.03.05
Beiträge
18.150
Schomo schrieb:
denn eigentlich wandelt Acrobat die Pixel in Pfade um, die dann wieder als Pixel am Bildschirm dargestellt werden...
Ähhh... Wie meinen?
Acrobat wandelt gar nix um. Pixelbilder aus beliebigen Quellformaten bleiben in PDF auch Pixelbilder. Text bleibt Text - und Pfade bleiben Pfade.
Was soll da "umgewandelt" werden???
 

Schomo

Zehendlieber
Registriert
15.11.04
Beiträge
4.118
Normalerweise wandelt eine OCR Software die Pixel einer Schrift aus einem Bild in erkennbare Pfade um, die dann mit den Vektoren einer vergleichbaren Schrift verglichen werden. Vielleicht täusche ich mich aber wie soll man wikipedia verstehen: "Während eine reine Mustererkennung eine Fehlerfreiheit in der Größenordnung von 80% erreicht (jedes fünfte Zeichen wird falsch erkannt), erzielen gute Programme dank leistungsfähiger Algorithmen eine Fehlerfreiheit von bis zu 99%. Solche Algorithmen operieren auf Graustufenbildern und erkennen Buchstaben so als dreidimensionale Kurven mit charakteristischen Merkmalen." Lass moch net blöd sterben, wenn ich mich irre.

Gruß Schomo
 

Rastafari

deaktivierter Benutzer
Registriert
10.03.05
Beiträge
18.150
Schomo schrieb:
...erkennen Buchstaben so als dreidimensionale Kurven...
Dreidimensionale Buchstaben?
Boah, da muss ganz schön Tonerpulver für draufgehen, was? :)

Was das andere betrifft:
Natürlich wandelt OCR pixelbasierte Bilder in Text.
Aber das macht Acrobat nur auf besondere Bestellung (Paper Capture).
Nicht jedesmal, wenn du ein ganz normales PDF erstellst.
Das hattest du doch nicht gedacht, oder?
 

Schomo

Zehendlieber
Registriert
15.11.04
Beiträge
4.118
Das mit Paper Capture hatte ich unten schon erwähnt. Was wikipedia mit dreidimensionalen Kurven meint ist mir nicht ganz klar.

Gruß Schomo