• Apfeltalk ändert einen Teil seiner Allgemeinen Geschäftsbedingungen (AGB), das Löschen von Useraccounts betreffend.
    Näheres könnt Ihr hier nachlesen: AGB-Änderung
  • Der Oktober ist da - Zeit, sich den rauer werdenden Wind um die Ohren pfeifen zu lassen und sich von der Wildheit der Elemente inspirieren zu lassen. Lasst uns an Euren Erlebnissen teilhaben! Zum Wettbewerb --> Klick

PDF-Exportproblem bei Sonderzeichen

  • Ersteller Mitglied 107065
  • Erstellt am

Mitglied 107065

Gast
Hallo, ich habe ein kleines Problem mit einem PDF-Export und wäre glücklich, falls hier jemand eine Lösungsidee hätte, weil ich wirklich nicht mehr weiter weiß.
Ich habe ein paar Textdokumente im PDF-Format, deren Inhalte ich gern exportieren würde (eigentlich in HTML, aber das mittlerweile nebensächlich geworden, Hauptsache, ich bekomme die Inhalte raus). Das Problem ist, dass der Text viele diakritische Zeichen enthält, v. a. Längenstriche und Akzente über Vokalen. Die Dokumente wurden auf einem Windows-Rechner mit WordPerfect in PDF konvertiert, weshalb dabei WordPerfect-eigene Schriftsätze eingebettet wurden, die die diakritischen Zeichen darstellen. Wenn ich nun an meinem Mac mit Acrobat das PDF-Dokument exportieren will, dann gibt es eine Fehlermeldung, weil diese WordPerfect-Schrift nicht vorhanden ist. Auch ein Nachinstallieren funktioniert nicht, weil sie anscheinend nicht erkannt wird (sie heißt WPMultilingual Roman und wird als WPMultilingualRoman – also zusammengeschrieben – verlangt).
Ich habe das ganze mit einer Acrobat X Testversion auf einem Windows-Rechner ausprobiert, wo zwar kein Schriftartenkonflikt mehr herrscht, das Export-Ergebnis aber auch nicht das gewünschte ist, weil die problematischen Zeichen immer noch falsch ausgegeben werden. Entweder werden sie ausgelassen oder – nach einer PDF-Bereinigung durch Acrobat – falsch ausgegeben: Buchstaben mit Längenstrich erhalten Umlautpunkte.
Auf dem Mac-System werden mir die Buchstaben als andere diakritsche Zeichen ausgegeben (ein kleines o mit Längenstrich z. B. als Ç). Ich habe auch versucht, die Seiten als Bild zu speichern und Acrobats OCR-Erkennung darüber laufen zu lassen, aber dabei versucht Acrobat Fehler zu vermeiden (was ja an sich gut ist) und macht aus einem ō wird ein ö.
Das mysteriöseste ist allerdings, dass wenn ich den Text im unter Windows bereinigten PDF einfach markiere und kopiere, ich genau das erhalte, was auch da steht. Nur fehlen dann sämtliche Formatierungen und am Ende jeder Zeile wird ein Absatz gemacht. Möchte ich mit Formaten kopieren, gibt es wieder Fehler.
Der einfache Versuch, die Schriftart im PDF einfach auszutauschen mit z. B. Times New Roman ist auch gescheitert, weil Acrobat merkt, dass da etwas nicht stimmt. Es scheint sich alles darum zu drehen, dass oberflächlich quasi das Zeichen ist, was auch da stehen soll, im Versteckten aber ein ganz anderes lauert.

Ich weiß einfach nicht weiter. Es scheint ja irgendwie richtig vorhanden zu sein, wenn ich unter Windows einfach kopieren kann.
Hat irgendjemand eine Idee, wie ich unter Beibehaltung der (Absatz-)Formatierung den Text dennoch exportieren kann?
Ich habe schon viel Zeit investiert. Ich könnte noch mehr Zeit investieren, indem ich die WordPerfect-Originale zusammen suche, was auch noch eine Möglichkeit wäre, allerdings sind die nicht in meinem Besitz und eine automatische Funktion wäre mir ganz hilfreich im Moment.

Für jeden Hinweis bin ich sehr dankbar :)