A medida que las cargas de trabajo de IA se vuelven más exigentes, seleccionar la configuración de DRAM adecuada es crucial para mejorar el rendimiento. Pero, ¿qué es más importante, la velocidad o la capacidad? En este artículo, se evaluarán cinco kits de DRAM diferentes en un PC para juegos/IA para encontrar la mejor configuración de DRAM.
Se probarán diferentes configuraciones de DRAM utilizando la herramienta Ollama, midiendo los tokens por segundo y el uso de memoria en tres grandes modelos de lenguaje (LLM).
La plataforma de prueba consta de:
Se evaluaron tres modelos de lenguaje de gran tamaño (LLM) de diferentes tamaños con diferentes demandas de memoria:
La utilidad Ollama se utilizó para cargar los diferentes modelos. Ollama proporciona una puntuación de tokens/segundo para medir la velocidad de inferencia. Se hizo un seguimiento del uso de la memoria para identificar cómo manejan cada modelo las diferentes configuraciones de DRAM. Los mensajes probados son los siguientes:
Por último, se probó el punto de referencia Final Fantasy XIV Dawntrail para medir el rendimiento de juego de cada configuración de DRAM. El objetivo es encontrar la configuración de DRAM que pueda manejar tareas de IA y juegos al mismo tiempo sin comprometer el rendimiento.
Fig. 1: Este gráfico muestra los tokens/segundo para cada una de las configuraciones de DRAM probadas en diferentes LLM utilizando solo la CPU.
Fig. 2: Rendimiento de las configuraciones DRAM probadas cuando los LLM se ejecutan con la RTX 4090. Los resultados se expresan en tokens/segundo.
Fig. 3: Medición del uso de memoria del sistema mientras se ejecuta cada LLM. CPU frente a CPU y GPU. Los resultados son aprox. en GB.
Puntuación de referencia FFXIV Dawntrail para cada una de las configuraciones de DRAM probadas.
Algunas observaciones importantes sobre los resultados.
Las configuraciones de 32 GB y 48 GB no pudieron adaptarse al modelo DeepSeek-R1 (70B) cuando se utilizó solo la CPU. Incluso con la RTX 4090 utilizada, 32 GB de DRAM están al límite cuando se utiliza el modelo 70b.
La mayor velocidad del kit CUDIMM de 8400 MT/s supera a cualquier otra configuración de DRAM en juegos, pero incluso con una RTX 4090 ejecutando un modelo de IA de gran tamaño no queda mucha memoria disponible.
Para cargas de trabajo con gran cantidad de IA, la capacidad de la DRAM desempeña un papel fundamental, especialmente en los modelos más grandes. Sin embargo, para los sistemas híbridos que gestionan tanto juegos como IA, la optimización de la velocidad y la latencia es igual de importante. Con los LLM optimizados continuamente para diferentes hardware y los requisitos reducidos, lo mejor sería tener capacidad de memoria adicional para que un modelo más grande pudiera ejecutarse en el sistema y lograr resultados más precisos.
Basándonos en las consideraciones expuestas anteriormente, el kit DRAM elegido es el CMH96GX5M2B7000C40.
REGISTRO DE PRODUCTOS