Forschungskrise: Programm kann Text in PDFs nicht erkennen

rollin'Nora · 13.01.11

Hallo zusammen,

ich wende mich heute mit einer echten Krise an die Spezialisten der Dateiformate. Im Rahmen meiner Arbeit an meiner Dissertation analysiere ich qualitativ Bilderbücher. Die Bücher für das Korpus habe ich eingescannt und die entstandenen JPGs in mehrseitige PDFs umgewandelt.

Dabei habe ich nicht bedacht, dass der Text in dem PDF dann gar nicht als Text wahrgenommen wird. Das eine Programm zur qualitativen Datenanlyse, das ich benutzen könnte (MaxQDA), kann eh nur rtf lesen. Wenn ich aber das PDF jetzt in ein RTF umwandle, habe ich nur ein Text-Dokument mit riesen großen Bildern - ist nicht analysierbar (Suche nach bestimmten Wörtern etc.). Das andere Programm kann PDFs laden (Atlas.Ti), aber auch hier wird jede Seite nur als ein Bild angezeigt.

Irgendwie will ich verhindern, den ganzen Text abtippen zu müssen. Kennt jemand eine OCR-Software (am besten kostenlos), die Texte aus PDFs filtern kann? Oder hat sonst noch nen vernünftigen Tipp für mich?

Wäre für jeden Lösungsvorschlag mega dankbar.

gKar · 13.01.11

rollin'Nora schrieb:
Kennt jemand eine OCR-Software (am besten kostenlos), die Texte aus PDFs filtern kann?

Ist das nicht etwas viel verlangt, eine möglichst gut funktionierende OCR-Software auch noch kostenlos haben zu wollen? Gut, fragen kann man ja mal.

Ich kenne keine Freeware. Google findet bei OCR für Mac sofort Abbyy FineReader. Soll PDF-Dateien umwandeln können, Gratis-Demo kann man runterladen.

Suche

Suche

Forschungskrise: Programm kann Text in PDFs nicht erkennen

rollin'Nora

Jonagold

gKar

Maunzenapfel

Wir schützen Ihre Privatsphäre

Informationen auf einem Gerät speichern und/oder abrufen

Personalisierte Anzeigen und Inhalte, Anzeigen- und Inhaltsmessungen, Erkenntnisse über Zielgruppen und Produktentwicklungen (Optionale Cookies)

Datenübermittlung an Partner in anderen Staaten (Drittanbieter-Cookies)