• Apfeltalk ändert einen Teil seiner Allgemeinen Geschäftsbedingungen (AGB), das Löschen von Useraccounts betreffend.
    Näheres könnt Ihr hier nachlesen: AGB-Änderung
  • Ein Blick aus dem Fenster verrät es: Der Lenz ist da. Passenderweise wird auch der Frühling unser Thema für das Foto des Monats. Hier geht es lang --> Klick

neuer Mac für LLM

Wuchtbrumme

Golden Noble
Registriert
03.05.10
Beiträge
22.272
Hallo,

wenn man LLM lokal machen wollen würde, was wäre denn eine Preis-/Leistungs-optimierte Geräteausstattung für die besten und größten Modelle und vielleicht noch etwas Potential für die möglicherweise zu erwartenden kommenden Modelle, wenn man den neuen Mac Studio mal als Trigger nimmt für die neue Gerätegeneration? Mehr als 5200 Euro würde ich nicht ausgeben wollen.

Meine jetzige Ausstattung ist ein Mac Studio M1 Max in der kleinen Core-Variante, aber 64GB RAM und 2TB SSD - das reicht mir dicke für alle Applikationen und auch die Modelle, die ich ausprobiert habe (deepseek-r1 u.a. bis 70b), sind geschwindigkeitsmäßig ok (nicht aber hinsichtlich der Qualität ihrer Ausgabe).

Das Gerät müsste schon sehr viel flotter sein als der M1 um den Betrag zu rechtfertigen. Mit AI würde ich mich sehr gerne näher beschäftigen und auch nutzbar machen. Ansonsten Lightroom Classic, Logic, FCPX, Surfen, Wordprocessing und Krimskrams, den jeder Computer heute kann.
 
Zuletzt bearbeitet:

voyager

Moderator
AT Moderation
Registriert
31.05.06
Beiträge
2.210
Wenn du sie „ernsthaft“ lokal machen willst, den Studio mit M3 Ultra, in der Basisausstattung 5000€ , dafür 96GB Ram . Da wär schon Platz für einiges an LLM, und mit den 60 GPU Cores,.. genug Kraft dazu (und auch deutlich Mehrleistung)

Wenn du mehr als 1TB brauchst, kannst du ja auch mit TB5 extern ran. Und vermutlich kommt da sicher auch in nächster Zukunft ein Upgrade Kit von Drittherstellern. Für die M1,.. Generation vom Studio gibts die ja schon länger (und ja auch M4 Mini inzwischen)


Mehr Ram oder 80 Core geht dann halt massiv übers Budget


Michi hat den 80 Core (mit 512GB) gestern im Stream gezeigt und etwas rechnen lassen. Ist eh auf YT. Und nächste Woche kommt noch n Video zum M3 Ultra im Studio
 

O-bake

Welscher Taubenapfel
Registriert
21.01.07
Beiträge
773
Ich würde nicht zum M3 Ultra 60 GPU raten. Der scheint langsamer zu sein als der M2 Ultra 76 GPU: https://github.com/ggml-org/llama.cpp/discussions/4167
In der Tabelle ist alles für ein 7B-Modell (in verschiedenen Quantisierungen) für die Vergleichbarkeit angegeben und der M3 Ultra 80 GPU fehlt noch.

Hier werden der M2 und M3 Ultra (jeweils der Große, also 76 und 80 core GPU) direkt für verschieden große LLM verglichen, sogar mit und ohne speculative decoding:
Um diese Inhalte anzuzeigen, benötigen wir die Zustimmung zum Setzen von Drittanbieter-Cookies.
Für weitere Informationen siehe die Seite Verwendung von Cookies.

Für Chat bzw. real-time Arbeit mit LLMs ist für mich das erträgliche Limit bei 7 tk/s. Man sagt, Lesegeschwindigkeit sind zwischen 5-7 tk/s. (tk/s oder T/s sind Token pro Sekunde).
Generell ist bei Macs (auch den Ultras) das Prompt Processing recht langsam, was dann zum limitierenden Faktor bei großen LLMs wird, trotzdem großen und schnellen Speichers. Wenn du z.B. Aufgaben hast, die nicht in Echtzeit erfolgen müssen, ist das natürlich egal.
Generell kann ich dir den LocalLLaMa-Reddit sehr empfehlen.

Ich hatte auch auf den Release des M3 Ultra gewartet und schiele jetzt eher auf einen gebrauchten M2 Ultra 76-core GPU mit 128 GB RAM. Der Unterschied zum M3 von der Rechenleistung ist marginal.
Für mich sind eher das neue reasoning Modell QwQ 32B mit viel context, bzw. klassische 70B-Modelle von Interesse.

Ich warte noch auf mehr Benchmarks. Viele sind auch widersprüchlich und vor allem die Video-Reviews werfen da eher mit Buzzwords um sich oder geben den die Größe des Context bei den Benchmarks nicht an, weswegen die dann wenig Aussagekraft haben (das wird in meinem 2. Link jedoch sehr schön berücksichtigt).

Aktuell habe ich für KI einen PC mit 3090 (24GB VRAM), was zwar alles schön schnell macht, aber natürlich aufgrund des geringer Speichers sehr limitiert ist. Dafür geht darauf Bildgenerierung wiederum recht flott.
 
  • Like
Reaktionen: Wuchtbrumme

Scotch

Graue Herbstrenette
Registriert
02.12.08
Beiträge
8.219
Wenn man sich ernsthaft mit KI beschäftigen will und dafür echt Geld in die Hand nimmt, würd' ich empfehlen die Macs beiseite zu lassen und das Geld lieber in einen PC mit enstprechender GPU zu investieren.

Wenn man nur fertige LLMs nutzen möchte - warum dann aber lokal? Betriebsgeheimnisse? - skaliert das ganze primär mit dem verfügbaren (schnellen) Speicher. Da liegen dann M-Prozessoren und Standard-GPUs dicht beieinander - im Highend werden die M-Macs dann schneller (wegen des größeren verfügbaren schnellen Speichers gegenüber Standard-GPUs - da ist bei 32GB VRAM Ende). Natürlich gilt auch da: Wenn man es wirklich Ernst meint, gibt man das Geld nicht für eine Standard-GPU aus sondern baut 'ne H100 (oder mehrere) in einen PC 😉

Wenn man doch eher einen Mac sucht, der "auch" KI kann, dann ist ein M-Mac sicher ein guter "Kompromiss" (allerdings m.E. aus o.g. Gründen ein ziemlich teurer) und ich würd' das SoC nehmen, welches du mit dem meisten RAM bekommst (und dann natürlich auch den Vollausbau ordern).

Wie gesagt, mir erschliesst sich die Anwendung nicht so richtig: Lokale LLMs laufen bei uns entweder in entsprechend reduzierten/optimierten Modellen auf RTX 4070-4090, oder in 'ner on-premise Cloud auf einem Cluster mit 6x H100 (da laufen dann aber angepasste LLMs, bzw. wir passen sie auf der Platform an, entweder mit einem Chat-Frontend, oder die Modelle werden über APIs direkt in Anwendungen eingebunden).

Wirklich zum Ausprobieren kann ich den Raspi 5 empfehlen, wenn man selber an LLMs (oder DNNs allgemein) schrauben will halt mit 'ner TPU. Dürfte komplett <=300€ Kosten und damit kann man wirklich viel machen, Optimierung lernen und da kommen auch dann wirklich nutzbare SLMs bei 'raus. Setzen wir z.B. als Demonstrator ein, wie man aus einem LLM - z.B. gpt-4o oder LLama3 - durch Optimierung (=Anpassung auf einen speziellen Aufgabenbereich) voll nutzbare SLMs lokal (z.B. als Teil einer Maschinen- oder Fahrzeugsteuerung) laufen lassen kann, bei ziemlich minimalen Anforderungen an SoC & Stromverbrauch (in Serie läuft sowas dann natürlich auf irgendeinen ARM-SoC - dafür reicht aber 'ne neue Ausführungsumgebung, das SLM kann man dann einfach kopieren).
 
Zuletzt bearbeitet:

Wuchtbrumme

Golden Noble
Registriert
03.05.10
Beiträge
22.272
danke für die Infos, @Scotch und auch @O-bake.
Ich habe bisher bis auf mal in ChatGPT was eingeben oder übersetzen noch überhaupt nicht viel gemacht. Greenfield.
Ich würde mich gerne weiter mit beschäftigen. Angefangen zu lesen und auch auszuprobieren habe ich schon, aber Geld will ich auch nicht verbrennen. Raspi5 und TPU ist ne gute Idee. Der M1 macht schon gar keine schlechte Figur, aber die Ki ist der Weisheit letzter Schluss noch nicht. Und in allen Medien wurde schon der Untergang des Abendlandes prognostizert - morgen halt.
Dabei gibt es soviele Dinge, die für Menschen einfach, für Maschinen aber unglaublich schwer sind.
Wer weiß, was wir dabei noch über uns selbst lernen.
 

Wuchtbrumme

Golden Noble
Registriert
03.05.10
Beiträge
22.272
sie haben darüber hinaus die Einschränkung von relativ wenig VRAM. Flott, aber begrenzt.
 
  • Like
Reaktionen: voyager

Scotch

Graue Herbstrenette
Registriert
02.12.08
Beiträge
8.219
Gibt es nicht mehr, werden seit letzten Jahr nicht mehr produziert und sind überall ausverkauft, und nur mehr bei Scalpern zu bekommen,
Naja, die 4070 gibt's schon noch und dann halt die 5090, die kostet mit mehr RAM das gleiche wie die 4090 bei Scalpern.

Aber mal ganz ehrlich: LLMs selber trainieren kann hier keiner, mal ganz davon abgesehen, dass er die Compute Ressourcen nicht hat. Unterstelle ich einfach mal, ihr dürft mich gerne eines Besseren belehren. Existierende LLMs optimieren... da hätte ich auch schon Zweifel, wie groß der die Schnittmenge mit Apfeltalk ist. Wer das aber kann, der wird' auch sagen: Erst mal eine 12/16/24/32GB ausreizen...! Daher mein Tip, mit einem Raspi 5 mal anfangen. ollama, llama.cpp kann man damit alles lernen und mit kleinen Modellen (phi-2, llama3.2:1b usw.) kriegt man out-of-the-box 5-8t/s. Um mit einem Chatbot 'rumzuspielen oder die Nutzung über API in einem eigenen Programm zu lernen reicjht das völlig. TPU 'dran und dann kann man auch mit coding assistenten 'rumspielen (ohne auch, aber das wird m.E. unbenutzbar zäh, wenn man mehr als 10 Anschläge pro Minute tippt 😉).

Wenn man dann immer noch lokale LLMs laufen lassen will, weiss man, warum und vor allem: Wie und wozu man die kleinen Varianten der LLMs nutzt (das ...:1b steht oben ja nicht aus Langeweile). Da kann man dann selber abschätzen, ob man eine M-Mac, oder doch eher einen PC mit GPU für weitere Experimente will. Siehe meinen letzten Beitrag - wir decken damit von "experimentieren" bis "produktiver Einsatz eigener LLM-basierter Lösungen" alles ab. Die Maschinen kosten daher auch von ca. 300€ (Raspi) über ~5000€ (WS mit RTX 4070/90 (halt dann heute 5090) bis ca. 250k€ (unsere H100 Farm). Und wenn wir nicht aus Vertraulichkeitsgründen lokal bauen müssen, machen wir das trotz eigener Ressourcen immer noch in der Cloud - ist billiger.

sie haben darüber hinaus die Einschränkung von relativ wenig VRAM. Flott, aber begrenzt.
Wie gesagt: Wenn du mal 'ne 12GB GPU von Nvidia ausreizt, sprechen wir uns wieder. Es ist dank ollama & Co. trivial auch größte Modelle auf potenter Hardware laufen zu lassen. Nur: Warum? Wozu? Was macht man damit? Wozu braucht man das? Damit Microsoft, OpenAI, Meta und DeepSeek nicht unsere Urlaubsplanung kennen (dafür müssen wir nicht ihr LLM benutzen)? Damit sie nicht wissen, dass wir zu blöd sind, einen Bubblesort selbst zu programmieren (dafür mpssen wir nicht ihr LLM benutzen)? Damit sie unseren streng geheimen Roman, der wir offensichtlich nicht selber schreiben können nicht vor Veröffentlichung kennen (think again)? 😉
 
  • Like
Reaktionen: AndaleR

Wuchtbrumme

Golden Noble
Registriert
03.05.10
Beiträge
22.272
Wie gesagt: Wenn du mal 'ne 12GB GPU von Nvidia
..........die Augen werden schlechter. Da habe ich doch echt 128GB gelesen. Sorry, Müll deshalb gelöscht.
Aber für 70B-Modelle reicht das natürlich eh nicht.
 
Zuletzt bearbeitet:

O-bake

Welscher Taubenapfel
Registriert
21.01.07
Beiträge
773
Wie gesagt: Wenn du mal 'ne 12GB GPU von Nvidia ausreizt, sprechen wir uns wieder.
Im ersten Beitrag hat er geschrieben, dass er LLM mit 70B ausprobieren möchte. Eine 12GB GPU wäre somit bereits für den genannten Anwendungszweck "ausgereizt". Dafür braucht es jetzt keine Übungsversuche oder Ähnliches, die den Kauf einer Karte mit zu wenig Speicher für den genannten Anwendungszweck rechtfertigen würden.
 
  • Like
Reaktionen: voyager

Scotch

Graue Herbstrenette
Registriert
02.12.08
Beiträge
8.219
Da steht, dass er Modelle bis 70B ausprobiert hat, nicht aber dass das eine harte Anforderung ist. Ich habe auch bisher an keiner Stelle einen Hinweis darauf gefunden, was eigentlich der Anwendungsfall ist - außer halt "mal ausprobieren".

Zum Ausprobieren braucht niemand 70B Modelle lokal. Dafür habe ich Alternativen aufgezeigt.

Ich klink' mich aus der Expertenrunde hier dann mal aus 😉
 

O-bake

Welscher Taubenapfel
Registriert
21.01.07
Beiträge
773
Er hat gesagt, dass er einen M1 Max mit 64GB hat und Modelle bis 70B probiert hat und mit der Qualität nicht zufrieden war. Ich würde vermuten, dass die Modelle zu stark quantisiert waren. Und wenn er die Modelle einfach nur zum Spass ausprobieren möchte, dann soll er das meinetwegen tun. Wer bin ich, anderen Leuten vorzuschreiben, was sie tun sollen (oder zu brauchen haben)?

Aber wie eine 12GB Grafikkarte das genannte Problem lösen soll, weiß wohl nur ein echter Experte.
 

Wuchtbrumme

Golden Noble
Registriert
03.05.10
Beiträge
22.272
ich habe nicht nur nicht behauptet, dass ich kein Experte bin, sondern ausdrücklich darauf hingewiesen, dass ich einsteige, mich damit befassen möchte und mit den bisherigen Ergebnissen nur halb zufrieden bin.
 

O-bake

Welscher Taubenapfel
Registriert
21.01.07
Beiträge
773
Ich würde nicht zum M3 Ultra 60 GPU raten. Der scheint langsamer zu sein als der M2 Ultra 76 GPU: https://github.com/ggml-org/llama.cpp/discussions/4167
@Wuchtbrumme:

Ich habe mich gegen meinen eigenen Rat entschieden und mir den M3 Ultra 96 GB 60-core GPU gegönnt.
Zwar scheint es zu stimmen, dass der M2 Ultra 76-core GPU etwas schneller ist, aber mit 128 GB Ram ist er zudem selten und die Angebote, die bei den üblichen Anzeigen geschaltet sind, sind nicht günstiger als der kleine M3. Die meisten second-hand M2 Ultras sind das kleinste Modell oder dann wieder welche, die auch große SSDs haben und somit unbezahlbar teuer sind. Daher habe ich meinen EDU-Rabatt genutzt und letztes Wochenende den kleinen Racker aus dem Apple Store abgeholt.

Ich war auch auf der Suche nach etwas, dass mir komfortabel 70B-Modelle bereitstellen kann und gerne auch noch etwas mehr. Als 4-bit quants sind die ca. 43 GB und als 8-bit quant 75 GB groß. Somit reichen die 96 GB des kleinen M3 Ultra für mich. Von größeren Modellen wie Mistral Large (123B) oder Command-a (111B) habe ich nicht erwartet, dass sie noch schnell genug sind, um sinnvoll genutzt werden können. Aber auch hier ist noch was möglich, Mistral Large als 4-bit quant ist 73 GB groß!

Geradem Subreddit locallama ätzen viele rum, dass das Prompt Processing, zurückzuführen auf die vergleichsweise schwache Rechenleistung des M3 Ultra, zu langsam sei um überhaupt noch als benutzbar zu gelten. Ich glaube, dass dort auch ein gewisser Glaubenskrieg dahintersteht und einige auch ihre Racks mit 4 x 3090 Karten und mehr verteidigen wollen (die ohne jede Frage auch schneller sind).

Für LLMs ist das Gerät für mich genau meinen Vorstellungen nach zu nutzen. Nach dem Laden lässt sich mit Modellen bis einschliesslich 70B sehr schnell chatten, aber das machen ja auch viele YouTuber vor. Ich habe dann einfach mal einen längeren Text eingegeben und geschaut, wie lange das dauert und was für Auswirkungen das hat.

Hinweis: ich habe den VRAM auf 88 GB festgelegt, so bleiben 8 GB für das System. Getestet habe ich gguf quants mit koboldcpp und mlx quants mit LM Studio, jeweils mit 32768 Token context.

Als Text habe ich den englischen Wikipedia-Artikel zu Napoleon gewählt. Das sind 21k Token oder 30 Seiten DIN-A4 Schriftgröße 12.

Geladen habe ich Llama 3.3 70B 4Q_K_M als gguf:
Ein erstes "Hi" wird spontan beantwortet mit ca. 14 T/s.
Dann habe ich den Text eingegeben, mit der Aufforderung ihn in einem Absatz zusammenzufassen. Das Prozessieren benötigt: 229 s.
Danach kann ich wieder ganz normal Fragen stellen, und die Antworten kommen mit 8 T/s.

Llama 3.3 70B 4Q als mlx:
Ein erstes "Hi" wird spontan beantwortet mit ca. 17 T/s.
Dann habe ich den Text eingegeben, mit der Aufforderung ihn in einem Absatz zusammenzufassen. Das Prozessieren benötigt: 203 s.
Danach kann ich wieder ganz normal Fragen stellen, und die Antworten kommen mit 12 T/s.

Was die Zahlen angeht, bin ich ersteinmal voll zufrieden. Ich weiß nicht, ob in meinem Alltag jemals das Zusammenfassen von 30 Seiten Schreibmaschinentext anstehen wird. Und falls doch, warte ich da gerne 200 Sekunden drauf. Auch für einen Chatverlauf, der sich so langsam dieser Größenordnung annähert, ist passabel und die Ausgabe ist für mich immer noch schnell genug, um als benutzbar zu gelten.

Was die Vergleichbarkeit zwischen gguf und mlx angeht, bin ich noch vorsichtig. Zum einen soll ein 4-bit mlx wohl weniger Daten enthalten als das gguf als Q4_K_M (das ist auch etwas größer) und zum anderen erinnere ich mich an Unstimmigkeiten bei den Angaben aus LM Studio. Vor einiger Zeit wurde das Context Shifting bei koboldcpp sehr gelobt (auch bei gut gefülltem Kontext wird dann nicht immer alles neu prozessiert, sondern es werden nur neue Eingaben berücksichtigt), sodass ich erstmal dabei bleibe.

Um zu testen, wo die Grenze ist, habe ich noch ein Mistral Large Finetune geladen (123B, Q4_K_M). Das geht immer noch mit 32768 context, da ich ja 88 GB für den VRAM reserviert habe. Interessanterweise verweigert LM Studio das Laden, obwohl mir auch da die 88 GB als frei angezeigt werden und das Modell 73 GB groß ist. In koboldcpp geht es aber. Ein erstes "Hi" wird noch mit 8 T/s beantwortet. Der 30-Seiten-Text benötigt 493 s und die Antworten kommen danach mit 5 T/s. Etwas zäh, aber je nach Anwendungszweck durchaus noch benutzbar.