Da KI-Workloads immer anspruchsvoller werden, ist die Auswahl der richtigen DRAM-Konfiguration entscheidend für die Verbesserung der Leistung. Aber was ist wichtiger, Geschwindigkeit oder Kapazität? In diesem Artikel werden fünf verschiedene DRAM-Kits auf einem Gaming-/KI-PC getestet, um die beste DRAM-Konfiguration zu ermitteln.
Mit dem Tool Ollama werden verschiedene DRAM-Setups getestet, wobei Token pro Sekunde und Speichernutzung in drei großen Sprachmodellen (LLMs) gemessen werden.
Die Testplattform besteht aus:
Es wurden drei LLMs (Large Language Models) unterschiedlicher Größe mit unterschiedlichem Speicherbedarf ausgewertet:
Die verschiedenen Modelle wurden mit dem Ollama-Dienstprogramm geladen. Ollama bietet eine Token/Sekunden-Bewertung, um die Inferenzgeschwindigkeit zu messen. Die Speichernutzung wurde verfolgt, um zu ermitteln, wie verschiedene DRAM-Konfigurationen mit jedem Modell umgehen. Die getesteten Eingabeaufforderungen sind die folgenden:
Schließlich wurde der Final Fantasy XIV Dawntrail-Benchmark getestet, um die Spieleleistung jeder DRAM-Konfiguration zu messen. Ziel ist es, die DRAM-Konfiguration zu ermitteln, die KI-Aufgaben und Spiele gleichzeitig bewältigen kann, ohne die Leistung zu beeinträchtigen.
Abb. 1: Diese Grafik zeigt die Token/Sekunde für jede der DRAM-Konfigurationen, die in verschiedenen LLMs getestet wurden, wobei nur die CPU verwendet wurde.
Abb. 2: Leistung der getesteten DRAM-Konfigurationen, wenn die LLMs mit dem RTX 4090 laufen. Die Ergebnisse sind in Token/Sekunde angegeben.
Abb. 3: Messung der Speichernutzung des Systems bei Ausführung jedes LLM. CPU vs. CPU und GPU. Die Ergebnisse sind ca. in GB angegeben.
FFXIV Dawntrail-Benchmark für jede der getesteten DRAM-Konfigurationen.
Ein paar wichtige Beobachtungen zu den Ergebnissen.
Bei den Konfigurationen mit 32 GB und 48 GB konnte das Modell DeepSeek-R1 (70B) nicht eingesetzt werden, wenn nur die CPU verwendet wurde. Selbst bei Verwendung der RTX 4090 sind 32 GB DRAM bei Verwendung des 70b-Modells am Limit.
Die höhere Geschwindigkeit des 8400 MT/s CUDIMM-Kits übertrifft jede andere DRAM-Konfiguration beim Gaming, aber selbst bei einer RTX 4090, auf der ein großes KI-Modell läuft, ist nicht mehr viel Speicher verfügbar.
Bei KI-intensiven Arbeitslasten spielt die DRAM-Kapazität eine entscheidende Rolle, insbesondere bei größeren Modellen. Bei Hybridsystemen, die sowohl Gaming als auch KI verwalten, ist jedoch die Optimierung von Geschwindigkeit und Latenz ebenso wichtig. Da LLMs kontinuierlich für unterschiedliche Hardware optimiert werden und die Anforderungen reduziert werden, wäre es am besten, über zusätzliche Speicherkapazität zu verfügen, damit ein größeres Modell im System ausgeführt werden kann, um genauere Ergebnisse zu erzielen.
Aufgrund der oben genannten Überlegungen ist das DRAM-Kit der Wahl das CMH96GX5M2B7000C40.
PRODUKTE IM ARTIKEL