• Apfeltalk ändert einen Teil seiner Allgemeinen Geschäftsbedingungen (AGB), das Löschen von Useraccounts betreffend.
    Näheres könnt Ihr hier nachlesen: AGB-Änderung
  • Der Frühling lässt den Schnee schmelzen, die Vögel jubilieren und die Sonne sorgt in wenigen Tagen auch noch dafür, das Grün endlich wieder draußen zur vorherrschenden Farbe wird. Wir freuen uns über diese wunderbaren Veränderungen und hoffen, sie feuern Eure Kreativität so richtig an!. Hier geht es lang --> Klick

neuer Mac für LLM

Wuchtbrumme

Golden Noble
Registriert
03.05.10
Beiträge
22.245
Hallo,

wenn man LLM lokal machen wollen würde, was wäre denn eine Preis-/Leistungs-optimierte Geräteausstattung für die besten und größten Modelle und vielleicht noch etwas Potential für die möglicherweise zu erwartenden kommenden Modelle, wenn man den neuen Mac Studio mal als Trigger nimmt für die neue Gerätegeneration? Mehr als 5200 Euro würde ich nicht ausgeben wollen.

Meine jetzige Ausstattung ist ein Mac Studio M1 Max in der kleinen Core-Variante, aber 64GB RAM und 2TB SSD - das reicht mir dicke für alle Applikationen und auch die Modelle, die ich ausprobiert habe (deepseek-r1 u.a. bis 70b), sind geschwindigkeitsmäßig ok (nicht aber hinsichtlich der Qualität ihrer Ausgabe).

Das Gerät müsste schon sehr viel flotter sein als der M1 um den Betrag zu rechtfertigen. Mit AI würde ich mich sehr gerne näher beschäftigen und auch nutzbar machen. Ansonsten Lightroom Classic, Logic, FCPX, Surfen, Wordprocessing und Krimskrams, den jeder Computer heute kann.
 
Zuletzt bearbeitet:

voyager

Moderator
AT Moderation
Registriert
31.05.06
Beiträge
2.086
Wenn du sie „ernsthaft“ lokal machen willst, den Studio mit M3 Ultra, in der Basisausstattung 5000€ , dafür 96GB Ram . Da wär schon Platz für einiges an LLM, und mit den 60 GPU Cores,.. genug Kraft dazu (und auch deutlich Mehrleistung)

Wenn du mehr als 1TB brauchst, kannst du ja auch mit TB5 extern ran. Und vermutlich kommt da sicher auch in nächster Zukunft ein Upgrade Kit von Drittherstellern. Für die M1,.. Generation vom Studio gibts die ja schon länger (und ja auch M4 Mini inzwischen)


Mehr Ram oder 80 Core geht dann halt massiv übers Budget


Michi hat den 80 Core (mit 512GB) gestern im Stream gezeigt und etwas rechnen lassen. Ist eh auf YT. Und nächste Woche kommt noch n Video zum M3 Ultra im Studio
 

O-bake

Welscher Taubenapfel
Registriert
21.01.07
Beiträge
770
Ich würde nicht zum M3 Ultra 60 GPU raten. Der scheint langsamer zu sein als der M2 Ultra 76 GPU: https://github.com/ggml-org/llama.cpp/discussions/4167
In der Tabelle ist alles für ein 7B-Modell (in verschiedenen Quantisierungen) für die Vergleichbarkeit angegeben und der M3 Ultra 80 GPU fehlt noch.

Hier werden der M2 und M3 Ultra (jeweils der Große, also 76 und 80 core GPU) direkt für verschieden große LLM verglichen, sogar mit und ohne speculative decoding:
Um diese Inhalte anzuzeigen, benötigen wir die Zustimmung zum Setzen von Drittanbieter-Cookies.
Für weitere Informationen siehe die Seite Verwendung von Cookies.

Für Chat bzw. real-time Arbeit mit LLMs ist für mich das erträgliche Limit bei 7 tk/s. Man sagt, Lesegeschwindigkeit sind zwischen 5-7 tk/s. (tk/s oder T/s sind Token pro Sekunde).
Generell ist bei Macs (auch den Ultras) das Prompt Processing recht langsam, was dann zum limitierenden Faktor bei großen LLMs wird, trotzdem großen und schnellen Speichers. Wenn du z.B. Aufgaben hast, die nicht in Echtzeit erfolgen müssen, ist das natürlich egal.
Generell kann ich dir den LocalLLaMa-Reddit sehr empfehlen.

Ich hatte auch auf den Release des M3 Ultra gewartet und schiele jetzt eher auf einen gebrauchten M2 Ultra 76-core GPU mit 128 GB RAM. Der Unterschied zum M3 von der Rechenleistung ist marginal.
Für mich sind eher das neue reasoning Modell QwQ 32B mit viel context, bzw. klassische 70B-Modelle von Interesse.

Ich warte noch auf mehr Benchmarks. Viele sind auch widersprüchlich und vor allem die Video-Reviews werfen da eher mit Buzzwords um sich oder geben den die Größe des Context bei den Benchmarks nicht an, weswegen die dann wenig Aussagekraft haben (das wird in meinem 2. Link jedoch sehr schön berücksichtigt).

Aktuell habe ich für KI einen PC mit 3090 (24GB VRAM), was zwar alles schön schnell macht, aber natürlich aufgrund des geringer Speichers sehr limitiert ist. Dafür geht darauf Bildgenerierung wiederum recht flott.
 
  • Like
Reaktionen: Wuchtbrumme

Scotch

Graue Herbstrenette
Registriert
02.12.08
Beiträge
8.212
Wenn man sich ernsthaft mit KI beschäftigen will und dafür echt Geld in die Hand nimmt, würd' ich empfehlen die Macs beiseite zu lassen und das Geld lieber in einen PC mit enstprechender GPU zu investieren.

Wenn man nur fertige LLMs nutzen möchte - warum dann aber lokal? Betriebsgeheimnisse? - skaliert das ganze primär mit dem verfügbaren (schnellen) Speicher. Da liegen dann M-Prozessoren und Standard-GPUs dicht beieinander - im Highend werden die M-Macs dann schneller (wegen des größeren verfügbaren schnellen Speichers gegenüber Standard-GPUs - da ist bei 32GB VRAM Ende). Natürlich gilt auch da: Wenn man es wirklich Ernst meint, gibt man das Geld nicht für eine Standard-GPU aus sondern baut 'ne H100 (oder mehrere) in einen PC 😉

Wenn man doch eher einen Mac sucht, der "auch" KI kann, dann ist ein M-Mac sicher ein guter "Kompromiss" (allerdings m.E. aus o.g. Gründen ein ziemlich teurer) und ich würd' das SoC nehmen, welches du mit dem meisten RAM bekommst (und dann natürlich auch den Vollausbau ordern).

Wie gesagt, mir erschliesst sich die Anwendung nicht so richtig: Lokale LLMs laufen bei uns entweder in entsprechend reduzierten/optimierten Modellen auf RTX 4070-4090, oder in 'ner on-premise Cloud auf einem Cluster mit 6x H100 (da laufen dann aber angepasste LLMs, bzw. wir passen sie auf der Platform an, entweder mit einem Chat-Frontend, oder die Modelle werden über APIs direkt in Anwendungen eingebunden).

Wirklich zum Ausprobieren kann ich den Raspi 5 empfehlen, wenn man selber an LLMs (oder DNNs allgemein) schrauben will halt mit 'ner TPU. Dürfte komplett <=300€ Kosten und damit kann man wirklich viel machen, Optimierung lernen und da kommen auch dann wirklich nutzbare SLMs bei 'raus. Setzen wir z.B. als Demonstrator ein, wie man aus einem LLM - z.B. gpt-4o oder LLama3 - durch Optimierung (=Anpassung auf einen speziellen Aufgabenbereich) voll nutzbare SLMs lokal (z.B. als Teil einer Maschinen- oder Fahrzeugsteuerung) laufen lassen kann, bei ziemlich minimalen Anforderungen an SoC & Stromverbrauch (in Serie läuft sowas dann natürlich auf irgendeinen ARM-SoC - dafür reicht aber 'ne neue Ausführungsumgebung, das SLM kann man dann einfach kopieren).
 
Zuletzt bearbeitet:

Wuchtbrumme

Golden Noble
Registriert
03.05.10
Beiträge
22.245
danke für die Infos, @Scotch und auch @O-bake.
Ich habe bisher bis auf mal in ChatGPT was eingeben oder übersetzen noch überhaupt nicht viel gemacht. Greenfield.
Ich würde mich gerne weiter mit beschäftigen. Angefangen zu lesen und auch auszuprobieren habe ich schon, aber Geld will ich auch nicht verbrennen. Raspi5 und TPU ist ne gute Idee. Der M1 macht schon gar keine schlechte Figur, aber die Ki ist der Weisheit letzter Schluss noch nicht. Und in allen Medien wurde schon der Untergang des Abendlandes prognostizert - morgen halt.
Dabei gibt es soviele Dinge, die für Menschen einfach, für Maschinen aber unglaublich schwer sind.
Wer weiß, was wir dabei noch über uns selbst lernen.
 

Scotch

Graue Herbstrenette
Registriert
02.12.08
Beiträge
8.212
Gibt es nicht mehr, werden seit letzten Jahr nicht mehr produziert und sind überall ausverkauft, und nur mehr bei Scalpern zu bekommen,
Naja, die 4070 gibt's schon noch und dann halt die 5090, die kostet mit mehr RAM das gleiche wie die 4090 bei Scalpern.

Aber mal ganz ehrlich: LLMs selber trainieren kann hier keiner, mal ganz davon abgesehen, dass er die Compute Ressourcen nicht hat. Unterstelle ich einfach mal, ihr dürft mich gerne eines Besseren belehren. Existierende LLMs optimieren... da hätte ich auch schon Zweifel, wie groß der die Schnittmenge mit Apfeltalk ist. Wer das aber kann, der wird' auch sagen: Erst mal eine 12/16/24/32GB ausreizen...! Daher mein Tip, mit einem Raspi 5 mal anfangen. ollama, llama.cpp kann man damit alles lernen und mit kleinen Modellen (phi-2, llama3.2:1b usw.) kriegt man out-of-the-box 5-8t/s. Um mit einem Chatbot 'rumzuspielen oder die Nutzung über API in einem eigenen Programm zu lernen reicjht das völlig. TPU 'dran und dann kann man auch mit coding assistenten 'rumspielen (ohne auch, aber das wird m.E. unbenutzbar zäh, wenn man mehr als 10 Anschläge pro Minute tippt 😉).

Wenn man dann immer noch lokale LLMs laufen lassen will, weiss man, warum und vor allem: Wie und wozu man die kleinen Varianten der LLMs nutzt (das ...:1b steht oben ja nicht aus Langeweile). Da kann man dann selber abschätzen, ob man eine M-Mac, oder doch eher einen PC mit GPU für weitere Experimente will. Siehe meinen letzten Beitrag - wir decken damit von "experimentieren" bis "produktiver Einsatz eigener LLM-basierter Lösungen" alles ab. Die Maschinen kosten daher auch von ca. 300€ (Raspi) über ~5000€ (WS mit RTX 4070/90 (halt dann heute 5090) bis ca. 250k€ (unsere H100 Farm). Und wenn wir nicht aus Vertraulichkeitsgründen lokal bauen müssen, machen wir das trotz eigener Ressourcen immer noch in der Cloud - ist billiger.

sie haben darüber hinaus die Einschränkung von relativ wenig VRAM. Flott, aber begrenzt.
Wie gesagt: Wenn du mal 'ne 12GB GPU von Nvidia ausreizt, sprechen wir uns wieder. Es ist dank ollama & Co. trivial auch größte Modelle auf potenter Hardware laufen zu lassen. Nur: Warum? Wozu? Was macht man damit? Wozu braucht man das? Damit Microsoft, OpenAI, Meta und DeepSeek nicht unsere Urlaubsplanung kennen (dafür müssen wir nicht ihr LLM benutzen)? Damit sie nicht wissen, dass wir zu blöd sind, einen Bubblesort selbst zu programmieren (dafür mpssen wir nicht ihr LLM benutzen)? Damit sie unseren streng geheimen Roman, der wir offensichtlich nicht selber schreiben können nicht vor Veröffentlichung kennen (think again)? 😉
 
  • Like
Reaktionen: AndaleR

O-bake

Welscher Taubenapfel
Registriert
21.01.07
Beiträge
770
Wie gesagt: Wenn du mal 'ne 12GB GPU von Nvidia ausreizt, sprechen wir uns wieder.
Im ersten Beitrag hat er geschrieben, dass er LLM mit 70B ausprobieren möchte. Eine 12GB GPU wäre somit bereits für den genannten Anwendungszweck "ausgereizt". Dafür braucht es jetzt keine Übungsversuche oder Ähnliches, die den Kauf einer Karte mit zu wenig Speicher für den genannten Anwendungszweck rechtfertigen würden.
 
  • Like
Reaktionen: voyager