Alors que les charges de travail de l'IA deviennent de plus en plus exigeantes, le choix de la bonne configuration de DRAM est crucial pour améliorer les performances. Mais qu'est-ce qui compte le plus, la vitesse ou la capacité ? Dans cet article, cinq kits de DRAM différents seront évalués sur un PC de jeu/IA afin de trouver la meilleure configuration de DRAM.
Différentes configurations de DRAM seront testées à l'aide de l'outil Ollama, qui mesure les jetons par seconde et l'utilisation de la mémoire sur trois grands modèles de langage (LLM).
La plate-forme de test se compose de :
Trois modèles de langage de grande taille (LLM) de tailles différentes et avec des exigences de mémoire différentes ont été évalués :
L'utilitaire Ollama a été utilisé pour charger les différents modèles. Ollama fournit un score de jetons/seconde pour mesurer la vitesse d'inférence. L'utilisation de la mémoire a été suivie pour identifier comment les différentes configurations de DRAM gèrent chaque modèle. Les invites testées sont les suivantes :
Enfin, le benchmark Final Fantasy XIV Dawntrail a été testé pour mesurer les performances de jeu de chaque configuration DRAM. L'objectif est de trouver la configuration DRAM capable de gérer les tâches d'IA et les jeux en même temps sans compromettre les performances.
Fig. 1 : Ce graphique montre les jetons/seconde pour chacune des configurations DRAM testées dans différents LLM utilisant uniquement le CPU.
Fig. 2 : Performances des configurations DRAM testées lorsque les LLM fonctionnent avec le RTX 4090. Les résultats sont exprimés en jetons/seconde.
Fig. 3 : Mesure de l'utilisation de la mémoire système lors de l'exécution de chaque LLM. CPU vs CPU et GPU. Les résultats sont approximatifs en Go.
Benchmark FFXIV Dawntrail pour chacune des configurations DRAM testées.
Quelques observations importantes les résultats.
Les configurations de 32 Go et 48 Go ne pouvaient pas s'adapter au modèle DeepSeek-R1 (70B) lorsque le processeur seul était utilisé. Même avec le RTX 4090, 32 Go de DRAM sont à la limite lorsque le modèle 70b est utilisé.
La vitesse plus élevée du kit CUDIMM à 8 400 MT/s surpasse celle de toute autre configuration DRAM dans les jeux, mais même avec une RTX 4090 exécutant un modèle d'IA de grande taille, il ne reste pas beaucoup de mémoire disponible.
Pour les charges de travail à forte composante IA, la capacité de la DRAM joue un rôle essentiel, en particulier avec les modèles plus volumineux. Cependant, pour les systèmes hybrides gérant à la fois les jeux et l'IA, l'optimisation de la vitesse et de la latence est tout aussi importante. Les LLM étant continuellement optimisés pour différents matériels et les exigences étant réduites, il serait préférable de disposer d'une capacité de mémoire supplémentaire afin qu'un modèle plus volumineux puisse fonctionner dans le système pour obtenir des résultats plus précis.
Sur la base des considérations exposées ci-dessus, le kit DRAM de choix est le CMH96GX5M2B7000C40.
PRODUITS DANS L'ARTICLE