Poiché i carichi di lavoro dell'IA diventano sempre più impegnativi, la scelta della giusta configurazione DRAM è fondamentale per migliorare le prestazioni. Ma cosa conta di più, la velocità o la capacità? In questo articolo, cinque diversi kit DRAM saranno valutati su un PC da gioco/IA per trovare la migliore configurazione DRAM.
Verranno testate diverse configurazioni DRAM utilizzando lo strumento Ollama, misurando i token al secondo e l'utilizzo della memoria su tre grandi modelli linguistici (LLM).
La piattaforma di prova è composta da:
Sono stati valutati tre LLM (Large Language Model) di varie dimensioni con diverse esigenze di memoria:
L'utilità Ollama è stata utilizzata per caricare i diversi modelli. Ollama fornisce un punteggio gettoni/secondo per misurare la velocità di inferenza. L'utilizzo della memoria è stato monitorato per identificare come le diverse configurazioni DRAM gestiscono ogni modello. I prompt testati sono i seguenti:
Infine, è stato testato il benchmark Final Fantasy XIV Dawntrail per misurare le prestazioni di gioco di ciascuna configurazione DRAM. L'obiettivo è quello di scoprire la configurazione DRAM in grado di gestire contemporaneamente le attività di intelligenza artificiale e il gioco senza compromettere le prestazioni.
Fig. 1: Questo grafico mostra i token/secondo per ciascuna delle configurazioni DRAM testate in diversi LLM utilizzando solo la CPU.
Fig. 2: Prestazioni delle configurazioni DRAM testate quando gli LLM funzionano con l'RTX 4090. I risultati sono in token/secondo.
Fig.3: Misurazione dell'utilizzo della memoria di sistema durante l'esecuzione di ogni LLM. CPU vs CPU e GPU. I risultati sono approssimativi in GB.
FFXIV Dawntrail benchmark per ciascuna delle configurazioni DRAM testate.
Alcune osservazioni importanti i risultati.
Le configurazioni da 32 GB e 48 GB non erano in grado di adattarsi al modello DeepSeek-R1 (70B) quando si utilizzava solo la CPU. Anche con l'RTX 4090, 32 GB di DRAM sono al limite quando si utilizza il modello 70b.
La maggiore velocità del kit CUDIMM da 8400 MT/s supera qualsiasi altra configurazione DRAM nei giochi, ma anche con una RTX 4090 che esegue un modello AI di grandi dimensioni non rimane molta memoria disponibile.
Per i carichi di lavoro pesanti in ambito IA, la capacità della DRAM gioca un ruolo fondamentale, soprattutto con i modelli più grandi. Tuttavia, per i sistemi ibridi che gestiscono sia i giochi che l'IA, l'ottimizzazione della velocità e della latenza è altrettanto importante. Con gli LLM continuamente ottimizzati per diversi hardware e i requisiti ridotti, sarebbe meglio avere una capacità di memoria extra in modo che un modello più grande possa funzionare nel sistema per ottenere risultati più accurati.
Sulla base delle considerazioni sopra esposte, il kit DRAM scelto è il CMH96GX5M2B7000C40.
REGISTRAZIONE DEL PRODOTTO