I takt med att AI-arbetsbelastningarna blir allt mer krävande är det avgörande att välja rätt DRAM-konfiguration för att förbättra prestandan. Men vad är viktigast, hastighet eller kapacitet? I den här artikeln kommer fem olika DRAM-kit att utvärderas på en gaming/AI-dator för att hitta den bästa DRAM-konfigurationen.
Olika DRAM-konfigurationer kommer att testas med hjälp av Ollama-verktyget, som mäter tokens per sekund och minnesanvändning i tre stora språkmodeller (LLM).
Testplattformen består av:
Tre LLM:er (Large Language Models) av varierande storlek och med olika minnesbehov utvärderades:
Verktyget Ollama användes för att ladda de olika modellerna. Ollama ger en poäng för tokens / sekund för att mäta inferenshastigheten. Minnesanvändningen spårades för att identifiera hur olika DRAM-konfigurationer hanterar varje modell. De uppmaningar som testades är följande:
Slutligen testades Final Fantasy XIV Dawntrail benchmark för att mäta spelprestanda för varje DRAM-konfiguration. Målet är att ta reda på vilken DRAM-konfiguration som kan hantera AI-uppgifter och spel samtidigt utan att kompromissa med prestandan.
Fig,1: Detta diagram visar antalet tokens/sekund för var och en av de DRAM-konfigurationer som testats i olika LLM:er som endast använder CPU.
Fig.2: Prestanda för de testade DRAM-konfigurationerna när LLM:erna körs med RTX 4090. Resultaten är i tokens/sekund.
Fig.3: Mätning av systemminnesanvändningen under körning av varje LLM. CPU vs CPU och GPU. Resultaten är ungefär i GB.
FFXIV Dawntrail benchmark för var och en av de testade DRAM-konfigurationerna.
Några viktiga observationer resultaten.
32GB- och 48GB-konfigurationer kunde inte passa DeepSeek-R1 (70B)-modellen när endast CPU:n användes. Även när RTX 4090 används är 32 GB DRAM på gränsen när 70b-modellen används.
Den högre hastigheten på 8400 MT/s CUDIMM-kitet överträffar alla andra DRAM-konfigurationer i spel, men även med en RTX 4090 som kör en stor AI-modell finns det inte mycket tillgängligt minne kvar.
För AI-tunga arbetsbelastningar spelar DRAM-kapaciteten en avgörande roll, särskilt med större modeller. För hybridsystem som hanterar både spel och AI är dock optimering av hastighet och latens lika viktigt. När LLM:er kontinuerligt optimeras för olika hårdvara och kraven minskar är det bäst att ha extra minneskapacitet så att en större modell kan köras i systemet för att uppnå mer exakta resultat.
Baserat på de överväganden som beskrivs ovan är det DRAM-kit som ska väljas CMH96GX5M2B7000C40.
PRODUKTREGISTRERING