• Apfeltalk ändert einen Teil seiner Allgemeinen Geschäftsbedingungen (AGB), das Löschen von Useraccounts betreffend.
    Näheres könnt Ihr hier nachlesen: AGB-Änderung
  • Der Frühling lässt den Schnee schmelzen, die Vögel jubilieren und die Sonne sorgt in wenigen Tagen auch noch dafür, das Grün endlich wieder draußen zur vorherrschenden Farbe wird. Wir freuen uns über diese wunderbaren Veränderungen und hoffen, sie feuern Eure Kreativität so richtig an!. Hier geht es lang --> Klick

Welcher Mac ist schnell genug für meine Datenbank?

Matze Mumpitz

Transparent von Croncels
Registriert
07.03.06
Beiträge
306
Hallo liebe Apfeltalkgemeinde,

vor ein paar Monaten habe ich mir eine Fujitsu ScanSnap zugelegt und den Großen Duden in 5 Bänden damit eingescannt, Mein iMac von 2008 hat eine Zeit gebraucht, bis er die Daten via DevonThinkProOffice (OCR) in PDF/Text-Dateien umgewandelt hat.
Da ich ...
1. noch weitere Lexika eingescannt habe und einscannen werde und ...
2. später bei meiner Arbeit über DTPO oft und dann möglichst schnell per Suchbefehl auf die Datenbank zugreifen will, stellt sich mir die Frage, welchen Mac ich anschaffen soll.

Ich kaufe grundsätzlich im RefurbishedStore, bin da immer gut mit gefahren und ich habe folgende Geräte als "geeignet" ausgespäht:
- 27" iMac mit 3,4 GHz Quad-Core Intel Core i7, 8 GB Arbeitsspeicher, 1 TB Fusion Drive, NVIDIA GeForce GTX 680MX mit 2 GB Arbeitsspeicher(die anderen iMacs mit Fusion Drive haben entweder Grafikkarten mit NUR 1 GB Arbeitsspeicher oder einen i5-Prozessor)
NACHTEILE: kein Laufwerk und nicht portabel
VORTEIL: riesiger Bildschirm, leistungsstärkstes Gerät

- 13,3" MacBook Pro mit 2,9 GHz Dual-Core Intel Core i7, 8 GB (2x 4 GB) DDR3 SDRAM mit 1600 MHz, 128 GB Solid-State-Drive, Intel HD Graphics 4000
VORTEIL: Mit Laufwerk, portabel und im Budget wäre auch noch ein Display
NACHTEIL?: reicht die Festplatte für System und Programme? Die Daten sollen dann auf eine externe Festplatte, oder bremst das den Rechner?

Ich freue mich über eure Meinungen! Grüße, Matze
 

WinRT

Macoun
Registriert
06.05.12
Beiträge
122
Also den iMac27 mit Fusion Drive würde ich nehmen. Ich bin mit der Fusion-Drive Technologie nicht so ganz vertraut aber auf die SSD solltest du normale private Dateien legen können. Das läd dann ziemlich schnell. Kommt drauf an wo du die Prioritäten setzt, dann musst du Programme auf die normale HDD auslagern. Starten dann aber langsamer. Und da du keine grafischen Arbeiten verrichtest (so wie ich das verstanden habe) brauchst du auch keine große GPU mit viel Arbeitsspeicher. Selbst 512 MB würden es tun. Daher nimm eine Fusion Drive mit 1 GB GPU.

Beim Macbook Pro müsstest du Daten immer auslagern. 128 GB wird glaube ich knapp.

Eine Frage hätte ich noch: Hast du wirklich einen ganzen Duden genommen und Blatt für Blatt abgescannt? Das sind doch 2 tausend Seiten?
 

Matze Mumpitz

Transparent von Croncels
Registriert
07.03.06
Beiträge
306
Hallo WinRT,

der i7 iMac mit NVIDIA GeForce GTX 675MX mit 1 GB Arbeitsspeicher täte es deiner Meinung nach also auch?

Thema Scan. Ja, ich habe den kompletten Duden (5 Bände) eingescannt, ca. 10.000 Seiten. Habe die Buchrücken abgerissen und dann mit dem Cutter die Seitenrücken beschnitten, damit es Einzelseiten sind. Das geht recht flott mit dem richtigen Werkzeug. Der ScanSnap scannt die Seiten doppelseitig und das in einem Wahnsinnstempo, ca. 50 Doppelseiten pro Minute. Nur die OCR-Engine braucht mit dem iMac 2008 so seine Zeit.
Als nächstes steht das GEO Themenlexikon auf dem Programm: 36 Bände a 1.000 Seiten.
Und den gedruckten Brockhaus hätte ich auch gerne digital als PDF/Text-Version.
 

Scotch

Graue Herbstrenette
Registriert
02.12.08
Beiträge
8.210
Nimm bei den OCR-Mengen den schnellsten Prozessor, den du kriegen kannst bzw. dir leisten willst. Ich bin auch i.W. irgendwann auf einen i7 gewechselt weil mir die Texterkennung zu lange dauerte. Ich scanne selten mehr als mal 20-30 Seiten am Stück (und dann ist das fast auschliesslich Text und triviales Layout), aber da merke ich fast nicht, dass die Texterkennung läuft, zumal DEVONthink sauber programmiert ist und sich daher ab 10.6 und Grand Central Dispatch die Last ganz gut auf die Kerne verteilt.

Die Grafikkarte ist für diese Art Anwendung vollkommen irrelevant.
 

Matze Mumpitz

Transparent von Croncels
Registriert
07.03.06
Beiträge
306
Hallo Scotch, danke für deine Antwort. Mit welchem Prozessor arbeitet denn dein Rechner? Bzw.: wie viel Gigahertz sollte der Prozessor deiner Meinung nach mindestens haben?

Noch eine Nachfrage: mir ist es vor allen Dingen wichtig, dass die Datenbank bei einer Suche möglichst schnell arbeitet. Wenn ich also die Gruppe "Lexika" mit sagen wir mal 100.000 PDF/Text-Seiten durchsuche, möchte ich die Treffer im Tempo eine Anfrage bei Google erzielen. Mit welchem Prozessor ist das deiner Meinung nach möglich?
 

WinRT

Macoun
Registriert
06.05.12
Beiträge
122
Ja ich glaube die Grafikkarte tut es und mit Fusion Drive laden die Dateien ,sofern sie auf der SSD Partition sind, schneller.
Da du eine Datenbank verwaltest ist die Grafikkarte wie Scotch gesagt hat eher irrelevant. Weil der Mac eh nichts grafisches berechnen muss! 2GB wären da rausgeworfenes Geld außer du fängst an zu Spielen und Computergrafiken zu erstellen.
Selbst 1 GB ist schon "zu" viel aber wenn es dazu eine Fusion Drive gibt und den i7 würde ich aufjedenfall den nehmen!
 

Matze Mumpitz

Transparent von Croncels
Registriert
07.03.06
Beiträge
306
Hallo WinRT, Danke dir für deine Einschätzung, dann wird's wohl der hier: Generalüberholter 27" iMac mit 3,4 GHz Quad-Core Intel Core i7
Ursprüngliche Veröffentlichung: Oktober 2012
27" Display mit LED-Hintergrundbeleuchtung und IPS-Technologie
16 GB Arbeitsspeicher
3 TB Fusion Drive
NVIDIA GeForce GTX 675MX mit 1 GB Arbeitsspeicher
 

abzhibilt

Zabergäurenette
Registriert
03.05.10
Beiträge
614
Mal ne andere Frage, warum hast du den duden nicht einfach als ebook gekauft? Das dürfte ja ne deutlich bessere pdf sein als das eingescannte.
 

Matze Mumpitz

Transparent von Croncels
Registriert
07.03.06
Beiträge
306
Zum normalen Checken von Rechtschreibung nutze ich duden.de.
Der Duden als ebook ist längst nicht so umfangreich. In einer Datenbank wie Devonthink kann man mehr als nur Suchen. PDFs/Text lassen sich wie ein Buch lesen. Das ist für meine Arbeit wichtig. Konvertiert man die PDFs gar in RTFs, lässt sich der Text mit GREP durchsuchen und filtern. Ich brauche den Duden und Lexika nicht wegen seiner Stichwörter, sondern wegen der Definitionen dahinter. Und dabei möchte ich wie beim Lesen eines Buches möglichst große Textblöcke im Blick haben und aus dem Dokument herauskopieren können. Oder ich will nach bestimmten Wortarten suchen, z. B. technische Ausdrücke oder saloppe Begriffe.
Für die Arbeit ist ein eBook nicht gemacht.
Oder sind die Duden-eBooks mittlerweile normale PDFs?
 

Baergolas

Pomme Etrangle
Registriert
25.03.07
Beiträge
899
Das OCR-Programm von Devonthink pro office unterstützt derzeit - leider - nur eine CPU, deshalb dauert es auch auf einem i7 lang - eigene Erfahrung^^.

Für die Datenbank würde ich auf eine SSD-Speicherlösung setzen, um kurze Zugriffszeiten zu erreichen.

Die CPU im iMac ist dagegen wie die GPU für diese Anwendung völlig "egal", selbst der "kleinste" Quadcore i5 im Einsteiger-iMac reicht mehr als genug aus.
 

iTea

Braeburn
Registriert
24.01.13
Beiträge
45
Da du hier einem Vorredner widersprichst und auf die Schnelle auf der Website des Programms keine Informationen zu finden sind, würde ich dem Thread-Ersteller raten, sich mit den Entwicklern in Verbindung zu setzten und diese zu Fragen, es scheint ja um eine ernsthafte Arbeit zu gehen und bei dem Preis der Software kann in meinen Augen ein entsprechender Support erwartet werden. Und dadurch ist es kein Halbwissen, sondern die Jungs kennen ihre Software und können dadurch sicher auch die besten Tips geben.
 

Scotch

Graue Herbstrenette
Registriert
02.12.08
Beiträge
8.210
Das OCR-Programm von Devonthink pro office unterstützt derzeit - leider - nur eine CPU, deshalb dauert es auch auf einem i7 lang - eigene Erfahrung.

Da kümmert sich Grand Central 'drum und die interne Engine parallelisiert prima. Dauer der OCR einer A4 Seite (nur Text) auf meinem 2.93GHz i7 kann ich nicht messen (<1s). Volltextsuche in meiner größten DB (2GB, eine größere habe ich nicht) kann ich ebenfalls nicht messen da die Suchergebnisse quasi in Echtzeit (während ich den Begriff noch eingebe) auftauchen.
 

thecasio

deaktivierter Benutzer
Registriert
20.08.11
Beiträge
108
Vill etwas Offtopic, aber ich wollte noch kurz meinen Senf dazugeben.

Je nach dem wie gross deine Datenbank ist, ist es sinnvoll sich eine Ram-Disk anzulegen und die Daten der DB dorthin zu verschieben. RAM wird noch auf lange Sicht hin schneller als jede SSD bleiben. Aber, das schnellste physikalische Medium nuetzt nichts, wenn die DB-Software schlecht ist. Keine Ahnung wie gut deine Software ist, aber eine Software die nach den neusten Erkenntnissen in Information Retrieval gebaut ist, wird erheblich mehr bringen als jedes Hardware-Upgrade. Vergleiche doch einfach mal was es so auf dem Markt gibt und halte nach einer Software ausschau, die genau auf deine Beduerfnisse optimiert ist und keine allgemeine Datenbank-Software ist.
 

Scotch

Graue Herbstrenette
Registriert
02.12.08
Beiträge
8.210
Genau so eine Software nutzt er und um die geht es hier. Liest du threads eigentlich, bevor du deinen Senf dazu gibst?
 

Baergolas

Pomme Etrangle
Registriert
25.03.07
Beiträge
899
@scotch: das mag sein, aber bei Devonthink ist für OCR der abbyy finereader installiert und der nutzt - zumindest bei meiner Devonthink pro office Version 2.61 - nur einen Core....gerade noch mal ausprobiert, definitiv nur ein Core!

Devonthink selbst nutzt alle Cores, keine Frage.
 

Matze Mumpitz

Transparent von Croncels
Registriert
07.03.06
Beiträge
306
Hallo alle!
Na, da ist ja nochmal ordentlich Leben in den Thread gekommen ;) Danke nochmal an alle, die sich beteiligen für die wertvollen Tipps.
@iTea: Gute Idee, ich werde mal bei DevonThink anfragen, wie das mit dem Zugriff auf die Cores ist.
Mir ist aber vor allem die Datenbanksuche in Echtzeit wichtig. Das OCR-codieren kann von mir aus auch in der Nacht passieren oder nebenbei.
@thecasio: Die RAM-Disk-Lösung bedeutet dann aber maximalen RAM für den Rechner, nicht wahr? Damit das System auch weiter ordentlich arbeitet. Ich habe keine Ahnung, wie man eine DB aus DTPO dorthin auslagert, werde ich mich ebenfalls im Forum von DT umtun.
@scotch: meine Lexikon-DB hat schon jetzt 5 GB und da ist noch nicht der Stapel an Büchern dabei, die noch dazukommen sollen ;)
@baergolas: Dieser Tipp "Die CPU im iMac ist dagegen wie die GPU für diese Anwendung völlig "egal", selbst der "kleinste" Quadcore i5 im Einsteiger-iMac reicht mehr als genug aus." würde eine erhebliche Ersparnis bedeuten. Da könnte ich mir ein 13'' macbookpro i5 mit fetter SSD kaufen und einen EIZO dranklemmen und hätte immer noch Geld gespart.
 

Matze Mumpitz

Transparent von Croncels
Registriert
07.03.06
Beiträge
306
Ich kann mir das eigentlich nicht vorstellen, dass Duden seine Lexika so 1:1 anbietet. Im Grunde suche ich schon seit 15 Jahren nach einer Lösung deren Lexika 1:1 digital nutzen zu können. Abgesehen davon, funzt das mit OCR auch jetzt noch nicht wirklich 100pro. Noch ist mir jedenfalls kein Programm untergekommen, dass die Spalten ordentlich voneinander trennt (auch nicht PDF-Pen, die behaupten, dass das funktioniert), und außerdem sind in den neueren Duden die Stichwörter mit Silbentrennerzeichen versehen, was die Suche unbrauchbar macht (OCR liest die Trenner als kleine "L") weshalb ich mir den Großen Duden von 1980 geschossen habe, da sind die Stichwörter noch nicht unterbrochen.
 

Matze Mumpitz

Transparent von Croncels
Registriert
07.03.06
Beiträge
306
Vill etwas Offtopic, aber ich wollte noch kurz meinen Senf dazugeben.

Je nach dem wie gross deine Datenbank ist, ist es sinnvoll sich eine Ram-Disk anzulegen und die Daten der DB dorthin zu verschieben. RAM wird noch auf lange Sicht hin schneller als jede SSD bleiben. Aber, das schnellste physikalische Medium nuetzt nichts, wenn die DB-Software schlecht ist. Keine Ahnung wie gut deine Software ist, aber eine Software die nach den neusten Erkenntnissen in Information Retrieval gebaut ist, wird erheblich mehr bringen als jedes Hardware-Upgrade. Vergleiche doch einfach mal was es so auf dem Markt gibt und halte nach einer Software ausschau, die genau auf deine Beduerfnisse optimiert ist und keine allgemeine Datenbank-Software ist.
Ich kenn mich so gut nun auch wieder nicht aus mit Datenbanken. DT, FM Pro, Evernote, Access und MySQL kommen mir da in den Sinn, dann hört es schon auf.
Eine eierlegende Wollmilchsau wie DT schien mir bisher das beste für meine Bedürfnisse.
 

thecasio

deaktivierter Benutzer
Registriert
20.08.11
Beiträge
108
Eine RAM-Disk ist ja nichts anderes als eine Partition. Das sollte also verschiebbar sein. Und ja, soviel RAM wie geht bei so einem Fall.

@scotch
Ja ich lese. Und ja ich habe auch gesehen, dass der Anbieter eine Laufzeit von O(log n) angibt. Aber: Oftmals sind Benutzer, und in diesen Forum sieht man es einfach viel zu oft, nicht muendig. Sie haben keine Ahnung was sie tun, sie nehmen immer das erste was ihnen gesagt wird ohne es auch nur einmal zu hinterfragen. Sie wissen nicht, ob was gut ist oder schlecht und koennen es auch nicht beurteilen. Und genau darum ging es mir in dem Beitrag. Zum denken anregen, ob das, was man verwendet wirklich gut ist oder eben nicht. Um anzuregen mal zu ueberlegen warum etwas besser sein soll oder nicht. Dafuer braucht es Wissen, klar. Wenn wer, wie z.B. der Themenstarter eine Software braucht fuer schnelle Zugriffe, dann muss er wissen, worauf es bei so einer Software ankommt, muss wissen, welche Technologien im Hintergrund arbeiten um auch nur ueberhaupt die Chance zu haben zu beurteilen ob die Software was taugt oder nicht. Den genau die Leute, die nicht nachdenken, sind es dann, die sich darueber wundern, dass z.B. das durchsuchen ihres Rechners solange geht weils dummerweise in O(n) laeuft, anstatt dass eine indizierte DB da ist. Oder fragen, warum Spotlight so viel Ressourcen am Anfang verschluckt, wahlweise auch warum das ueberhaupt RAM verbraucht. Und mit diesen ganzen Fragen wird man dann hier im Forum zugebombt. Aber es ist ja Technik und da faengt bei vielen die Blockade an. Also liebe Leute, bitte, denkt mal nach. Bitte beschaeftigt euch mit den Sachen die ihr Verwenden wollt. Kein Thema, wenn ihr das nicht machen wollt. Aber dann bitte nicht rumheulen.
Was reg ich mich auf... :) Sry, dass es etwas offtopic geworden ist. Und nein, das war jetzt nicht gegen den Threadstarter gerichtet, die DB-Software scheint in Ordnung zu sein, zwar fehlen auf der Webseite die genauen Angaben der Technologie, aber wenn die Laufzeiten stimmen, dann ist das eine super Software.