• Apfeltalk ändert einen Teil seiner Allgemeinen Geschäftsbedingungen (AGB), das Löschen von Useraccounts betreffend.
    Näheres könnt Ihr hier nachlesen: AGB-Änderung
  • Der Oktober ist da - Zeit, sich den rauer werdenden Wind um die Ohren pfeifen zu lassen und sich von der Wildheit der Elemente inspirieren zu lassen. Lasst uns an Euren Erlebnissen teilhaben! Zum Wettbewerb --> Klick

Wie vergleicht man automatisiert gescannte PDFs (also de facto TIFFs)?

SilentCry

deaktivierter Benutzer
Registriert
03.01.08
Beiträge
3.831
Das Problem ist leicht erklärt:
Es werden Files (Word) ausgesendet, die "der Kunde" selbst ausdruckt und unterschreibt. Die physischen Ausdrucke samt Unterschriften kommen zurück. Wie stellt man nun sicher dass das was der Kunde druckte und unterschrieb auch das ist, was man ihm geschickt hat?

Wenn man nun die unterschriebenen Ausdrucke scannt und die eigenen Files druckt und scannt dann hat man zwei PDFs (nicht textuelle, also im Prinzip hat man zwei TIFF-Files) die man nun vergleichen müsste.

Wenn man nun nicht Satz für Satz, Seite für Seite manuell lesen will sondern das ganze automatisiert machen lassen will: Welches Programm/Tool kann man (natürlich unter OS X) dafür einsetzen?

Danke!
 

wami

Oberösterreichischer Brünerling
Registriert
15.12.08
Beiträge
714
Wir versenden in diesem Fall digital signierte nicht änderbare PDF Dateien mit unserer eigenen Unterschrift. Zumindest nach deutschem Recht ohnehin die einzige Möglichkeit.

Viele Grüsse

Michael
 

SilentCry

deaktivierter Benutzer
Registriert
03.01.08
Beiträge
3.831
Ja, ich weiß auch wie man das im Ansatz besser machen könnte. Signierte PDFs, oder HardCopy wie üblich, etc.
Meine Frage ist aber ganz konkret: WENN man nun diese Situation hat dass man zwei SCANS vergleichen muss, welche SW würde man unter OS X dann einsetzen?
 

Dinofelis

Gast
Du könntest entweder eine OCR-Software verwenden oder eine Software, die einen Bild- (Pixel-) Vergleich macht.

In beiden Fällen führt das nicht wirklich zum Erfolg, weil es *immer* eine Fehlerquote bei der "Erkennung" gibt. Lasse die bei OCR z.B. "nur" bei 1% sein, dann hast du bei den üblichen 1000 bis 2000 Zeichen pro Seite immer noch 10 bis 20 völlig falsch erkannte Zeichen und musst dann selbst nachprüfen, woran das liegt.
 

SilentCry

deaktivierter Benutzer
Registriert
03.01.08
Beiträge
3.831
OCR habe ich versucht. Sinnlos. Der Ausdruck vom Kunden und der Ausdruck von uns, beide gescannt, vollkommen unterschiedlich weil die Ausdrucke ja schon nicht gleich werden.
Es müsste eine SW sein die eine Art "Imagevergleich" macht mit einstellbarer Toleranz. Ich meine, ob in einem Satz ein "nicht" hinzugefügt oder gestrichen wurde würde man so erkennen, ob im Preis etwas verändert wurde, ob Hakerl bei der Kundenmitwirkung entfernt oder anders gesetzt wurden, etc.

Wie diese Suchbilderrätsel "finden Sie die 7 Unterschiede" nur halt für PDFs / TIFFs mit -zig Seiten.
 

Dinofelis

Gast
Genau. OCR ist sinnlos.

Bleibt also nur der "Imagevergleich".

Da gibt es mindestens zwei Klassen, beide nicht mit normalen privaten Mitteln käuflich.

  1. Serielle Bilderkennung (stehender Vergleich - Industrielle Fertigung)
  2. Stochastische Bilderkennung (beweglicher Vergleich - Individuelle Muster, Überwachungssoftware)

Ich denke, du kannst mit diesen Stichwörtern genug anfangen, ohne dass ich dazu lange Erklärungen abgebe. Nur soviel: Die serielle Erkennung erfordert bereits einen gewaltigen Hardware/Software-Aufwand inkl. Lernphasen für einzelne Vorlagen.

Mir ist nur eine einzige Software bekannt, die für drei Euro fuffzig einigermaßen in die Nähe dessen kommt, und das ist EvoCam. Aber EvoCam ist wiederum eine Überwachungssoftware, die lediglich Änderungen in Bereichen von Bildern/Videos erkennt, ohne jegliche Intelligenz oder Warnung hinsichtlich Inhalten.

Vielleicht gibt es die Software, die du brauchst, aber ich weiß das nicht. Wenn ich so etwas für dich konstruieren müsste, dann würde ich gleich zu Anfang an einigen sehr grundsätzlichen Problemen scheitern, um Vorlage und Dokument hinsichtlich Größe, Skalierung, Auflösung, Winkel, Ausschnitt, Farbmodus, Farbtiefe, usvm. in Deckung zu bringen.

Das grundsätzliche Problem ist der Unterschied der jeweiligen Aufnahmebedingungen der Bilder. Es erscheint mir fast unmöglich, zwei verschiedene Bilder automatisch oder manuell "gleich" zu machen, um (pixelbasierte) Unterschiede im Kontext des Inhalts mit einer solch immensen Auflösung zu analysieren, dass (juristisch) wirksame Unterschiede zu 100% erkannt werden (z.B. unterschiedliche Satzzeichen). Das sage ich nicht leichtfertig, sondern mit einigen Jahrzehnten Erfahrung in Bild- und Datenverarbeitung.

Selbst wenn es um dreissig Seiten kleingedruckten Vertragstext geht, könnte der rein visuelle (manuelle) Vergleich sehr viel einfacher sein.

Du kannst ja folgendes mit relativ wenig Aufwand tun: Hole dir transparente Folien, die für deinen Laserdrucker/Tintenstrahldrucker geeignet sind. Jetzt musst du nur noch so lange an der Skalierung spielen, bis Original und Kopie gleich groß sind. Winkel, Farbe, Kontrast, usw ist irrelevant, weil du alles bei gleicher Skalierung in Sekunden mit deinen Händen und Augen in Deckung bringen kannst und sofort visuell beurteilen kannst, sobald du die Kopie auf das Original legst.
 
  • Like
Reaktionen: BerndderHeld

SilentCry

deaktivierter Benutzer
Registriert
03.01.08
Beiträge
3.831
Nun, die Fragwürdigen, die diesen Unsinn verbrochen haben, wären ja ohnehin der abstrusen Ansicht, es würde sich jetzt jemand hinsetzen und den Müll manuell vergleichen. Indiskutabel.

OK, danke jedenfalls, ich dachte, nur weil ich nichts finde muss es ja nicht zwangsweise auch nichts geben, aber anscheinend wird den Herrschaften nichts übrig bleiben als sich ins stille Kämmerchen zurück zu ziehen und sich die 100 Seiten gegenseitig vorzulesen. *Ich* mache das sicher nicht. Und technische (automatisierte) Lösung kenne ich keine.
 

captainfuture

Weisser Rosenapfel
Registriert
28.12.09
Beiträge
791
das musst du mit deinem/n chef(s) ausmachen. dabei kann dir keiner helfen.
 

SilentCry

deaktivierter Benutzer
Registriert
03.01.08
Beiträge
3.831
Ja, das weiß ich. Das ist kein Problem. Der Punkt war, ob es eine technische (aka automatisierte) Methode gäbe, nein, gibt es nicht, ok, dann Pech für die Fragwürdigen, wenn sie so einen Mist machen müssen sie ihn auch ausbaden. Mit einer autom. Möglichkeit hätte ich ihnen geholfen, Grimms Märchenerzählerstunde können sie selber machen.
 

captainfuture

Weisser Rosenapfel
Registriert
28.12.09
Beiträge
791
also wenn mir das ein angestellter so sagt, ... :)

aber vielleicht findet sich ja eine andere person die diese lehrlingsarbeit machen kann. man muss ja nicht verstehen was im text steht.
 

SilentCry

deaktivierter Benutzer
Registriert
03.01.08
Beiträge
3.831
Hier geht es nur auf einer Seite um die Frage wer das Recht hat einen so vollkommen Scheißmist zu machen und dem Kunden ein File zum Selbereditieren und -ausdrucken zu schicken und dann die Frechheit besitzt, andere dazu heran zu ziehen diese vertrottelte Idee zu kontrollieren und auf der anderen Seite geht es aber um _Verantwortung_.

Stellen wir uns nur kurz mal vor, der Kunde hätte wirklich aus 1.000.000,- Euro 100.000,- gemacht und dem "Lehrling" fällt das nicht auf. Was nun? Ist dann denen, die eindeutig Mist gebaut haben gelungen, die Verantwortung auf einen Dritten abzuwälzen?
So kann das nicht funktionieren.

Und wenn der, der es kontrolliert nicht verantwortlich ist dann könnte derjenige einfach drei Stunden Pause machen und nachher sagen er hat keinen Unterschied gefunden. Also sollten es DIE kontrollieren die es auch verantworten müssen. So einfach.
 

captainfuture

Weisser Rosenapfel
Registriert
28.12.09
Beiträge
791
da geb ich dir recht. das ist ein problem. und wenn es ein problem ist, sollte die firmenleitung/abteilungsleitung das auch erkennen und ändern, zumal das ja nicht wirklich viel aufwand ist oder?
vielleicht hilft da ein ruhiges gespräch. immerhin willst du ja probleme lösen und sachen verbessern. und wahrscheinlich auch kosten einsparen.
 

SilentCry

deaktivierter Benutzer
Registriert
03.01.08
Beiträge
3.831
Eh. Die Lösung war bzw. ist genau die: Die Herrschaften die entschieden haben das so zu machen müssen das jetzt selbst kontrollieren. Auf eigenen Aufwand und auch auf eigene Verantwortung.
Problem gelöst.
 

MacAlzenau

Golden Noble
Registriert
26.12.05
Beiträge
22.565
Vielleicht gibt es Astronomie-Software, die da hilft.
Astronomen vergleichen ja Aufnahmen der gleichen Himmelsregion zu verschiedenen Zeiten, um neue Himmelskörper oder Veränderungen zu entdecken. Klassisch nimmt man dazu ein Gerät, mit dem man die beiden Bilder betrachtet und dabei sehr schnell zwischen ihnen hin- und herschaltet. Da fallen schon kleine Veränderungen auf. Heutzutage gibt es dafür bestimmt Software.
Ob's im genannten Fall wirklich hilfreich ist, müsste man ausprobieren
 

SilentCry

deaktivierter Benutzer
Registriert
03.01.08
Beiträge
3.831
Hm. Dann muss dennoch ein Mensch Seite n Dokument X mit Seite n Dokument Y vergleichen (und damit auch die Verantwortung übernehmen ob er den Unterschied sieht).

Mir ging es wirklich um diese Lösung:
Beide PDFs, rein in das Programm, raus kommt ein PDF mit roten Stellen/Markern wo unterschiede sind. Dieses Ergebnis-PDF übermittle ich den Fragwürdigen mit der Aussage: "Diese Unterschiede wurden durch SW ABCD ohne Gewähr auf Vollständigkeit gefunden." Fertig.

Darüber dass das Vorgehen, Angebote zum Selberdrucken an den Kunden zu schicken nicht die allerbeste Idee ist, grenzt sind sich ohnehin alle einig (also nicht alle, aber alle die, die es nicht getan haben ;.)

Wie dem auch sei, falls irgend jemand noch eine Idee hat (bzgl. SW-Lösung) immer gerne her damit. Das war sicher nicht der letzte Unsinn den ich zu bearbeiten hatte.
 

Dinofelis

Gast
Vielleicht gibt es Astronomie-Software, die da hilft.
Astronomen vergleichen ja Aufnahmen der gleichen Himmelsregion zu verschiedenen Zeiten, um neue Himmelskörper oder Veränderungen zu entdecken. Klassisch nimmt man dazu ein Gerät, mit dem man die beiden Bilder betrachtet und dabei sehr schnell zwischen ihnen hin- und herschaltet. Da fallen schon kleine Veränderungen auf. Heutzutage gibt es dafür bestimmt Software.

Die Idee an sich ist verdammt gut.

Aber auch in diesem Bereich ist die Software entweder nicht käuflich und/oder unbezahlbar (weil eine Speziallösung), oder sie taugt nichts.

Das wirklich Verblüffende ist, dass mittlerweile sehr viele "menschliche" Erfolge bei einigen ansonsten nicht per Software zu bewältigenden Astronomie-Projekten erzielt werden. Und zwar interaktiv, per Vergleich mit menschlichem Auge und Urteilsvermögen (www.galaxiezoo.org). Dabei sind unter anderem neben einigen wunderschönen "klassischen" Galaxien sogar ganz neue Klassen von Galaxien entdeckt worden.

Mir ging es wirklich um diese Lösung:
Beide PDFs, rein in das Programm, raus kommt ein PDF mit roten Stellen/Markern wo unterschiede sind. Dieses Ergebnis-PDF übermittle ich den Fragwürdigen mit der Aussage: "Diese Unterschiede wurden durch SW ABCD ohne Gewähr auf Vollständigkeit gefunden." Fertig.

Naja, das geht ja im Prinzip ganz einfach mit Photoshop.

Nur nützt es niemandem etwas, weil jeder Krümel im Papier auf diese Art markiert wird, nur das nicht, worauf es ankommt, nämlich böswillig geänderte Textpassagen. Und vor allem wird fast alles markiert, wenn Skalierung, Winkel, Farbmodus und Auflösung nicht exakt zueinander passen.

Schaue dir mal www.galaxiezoo.org an. Ich glaube, dann wird klar, dass das menschliche Gehirn nicht so einfach durch Software ersetzt werden kann.

Die eigentliche Lösung ist klar, aber in deinem Fall wurde ja auf die elektronische Verarbeitung verzichtet, und stattdessen der "gute" alte Papierausdruck als Vertragsgrundlage genommen.