• Apfeltalk ändert einen Teil seiner Allgemeinen Geschäftsbedingungen (AGB), das Löschen von Useraccounts betreffend.
    Näheres könnt Ihr hier nachlesen: AGB-Änderung
  • Es regnet, ist neblig und kalt, alle sind krank und der Chef wird zunehmend cholerisch. Das Thema des Monats ist also folgerichtig --> Das Grau(en)
    Wir sind gespannt, war Euch dazu einfällt! Zum Wettbewerb --> Klick
  • Auch in diesem Jahr möchten wir auf unserer Webseite mit einem passenden Banner etwas weihnachtliche Stimmung verbreiten. Jeder Apfeltalker kann, darf und sollte uns einen Banner-Entwurf zusenden, wie und wo das geht, könnt Ihr hier nachlesen --> Klick

DjVu, PDF, PS, HTML, XML, CHM...

Cyrics

Neuer Berner Rosenapfel
Registriert
01.04.05
Beiträge
1.973
Hallo,

ich versuche mich derzeit in einem Bereich in dem ich mich einfach nicht auskenne. Ich kenne zwar Quellenkodierung und die verschiedenen Codierungsverfahren, aber wollte von euch einmal hören, welchem Format ihr eine größere Zukunftssicherheit einräumt?

Um Unwissen hier zu verhindern, verlinke ich einfach mal die Wiki-Artikel zu den verschiedenen Formaten:
DjVu, Download von DjVuLibre
PDF, PDF-Spezifikation von Adobe
PS
HTML,XML
CHM, CHM-Betrachter

Wozu diese Diskussion?
Ich stehe vor dem Problem circa tausend Dokumente in ein einheitliches Format zu bringen. Meine Anforderung ist, dass diese Dokumente (circa 50% PDF; 20% HTML; 10% CHM; 20% DOC, EXCEL,XML und sonstiges) nach der Konvertierung alle durchsuchbar und indexierbar (Titel, Editor, Datum, Inhalt etc.) sind. Schön wäre es, wenn das Format auch noch einige Jahre bestehen würde und nicht all zu starken Versionssprüngen unterliegt. Plattformunabhängig muss dieses dann leider auch noch sein... Speicherplatz ist nicht wirklich entscheidend.

PostScript gibt es ja schon seit 1984, aber das scheint auch gleichzeitig ein Nachteil zu sein. Die Entwicklung von Ghostscript ist sehr ins Stocken geraten. Ich glaube die Entwicklung hat mit Einführung von OS X aufgehört. Ein Viewer existiert nur noch für Classic. Und "Vorschau" (Preview) versucht jede PS-Datei direkt in PDF zu wandeln... wobei es sich bei mir eher immer aufhängt als einen Fortschritt erzielt...

PDF ist weit verbreitet und war/ist für mich eigentlich DAS Format. Jedoch hab ich in letzter Zeit viele Probleme mit den verschiedenen PDF-Versionen. Version 5-6 ist noch durchsuchbar nach ASCII-Zeichen, Version 7 legt einem da schwere Steine in den Weg. Weshalb auch immer...

DjVu hab ich nur durch Zufall entdeckt gehabt und finde den Ansatz sehr interessant. Es wird strikt zwischen Text und Grafik unterschieden. Grafiken werden mit dem JPEG2000-Verfahren codiert und dadurch erhält man wirklich klasse Qualität mit geringer Dateigröße. Text kann, aber muss nicht komprimiert sein. Ansich klingt das alles gut und schön und wurde auch noch von AT&T entwickelt. Nur wie verbreitet ist dieses? Einen Viewer hab ich zwar dafür gefunden, aber da stellt sich mir das gleiche Problem wie beim CHM-Betrachter. Es soll jedoch OpenSource sein, weil nur ein Teil des Formats unter GPL lizensiert ist anscheinend.

HTML möchte ich auch in die Diskussion mit einbringen, da es genauso wie alle anderen Formate auch eine Darstellungsform ist. Die Darstellungsstile sind zwar sehr beschränkt aber diese müssen auch nicht ausgefallen sein. An HTML stört mich, dass es nicht so klar definiert ist wie XML. Es gibt öffnende und schließende Tags, manchmal nur ein von beiden... man kann sich auf nichts wirklich einstellen, und das durchsuchen wird dadurch massiv erschwert, weil man sich auf alle Eventualitäten einstellen muss.

CHM... das ist eigentlich eher aus der Windows-Welt. Es ist ein Container-Format, welches ein oder mehrere XHTML-Dateien beinhaltet. Das Problem an diesem Format ist die Handhabbarkeit. Man brauch einen bestimmten Betrachter, der erstens den Container öffnen kann und dann noch als XHTML-Viewer dienen muss. Das Problem ist dadurch eine beschränkte Betrachtung. Die Durchsuchung ist hier dagegen eher möglich, da XHTML einer bestimmten Konvention folgt, da es sich ja auch an XML orientiert.

XML wäre DAS Format, wenn es nur möglich wäre PDF und Co. in XML umzuwandeln... Die Darstellung könnte dann abhängig von den eingetragenenen Informationen statt finden. Es wäre ein erhöhter Programmtechnischer Aufwand nötig, aber ich glaube XML wird derzeit überall verwendet zur Übertragung und Sicherung von Daten. Nur an der Konvertierung würde es scheitern.

Das wäre meine Meinung zu den Formaten. Welche Erfahrungen habt ihr gemacht, auch plattformübergreifend? Welches Format könnt ihr empfehlen? und wie schaffe ich die Umwandlung der verschiedenen Formate in dieses?

Danke schon einmal für die Ratschläge im vornherein (wieso schreibt man dieses eigentlich klein, aber "im Nachhinein" groß?).