À medida que as cargas de trabalho de IA se tornam mais exigentes, a seleção da configuração correta da DRAM é crucial para melhorar o desempenho. Mas o que é mais importante, velocidade ou capacidade? Neste artigo, cinco kits DRAM diferentes serão avaliados num PC de jogos/IA para encontrar a melhor configuração DRAM.
Serão testadas diferentes configurações de DRAM utilizando a ferramenta Ollama, medindo os tokens por segundo e a utilização de memória em três grandes modelos de linguagem (LLM).
A plataforma de ensaio é constituída por:
Foram avaliados três LLMs (Large Language Models) de diferentes tamanhos e com diferentes exigências de memória:
O utilitário Ollama foi utilizado para carregar os diferentes modelos. O Ollama fornece uma pontuação de tokens/segundo para medir a velocidade de inferência. A utilização da memória foi monitorizada para identificar o modo como as diferentes configurações de DRAM lidam com cada modelo. Os prompts testados são os seguintes:
Finalmente, o benchmark Final Fantasy XIV Dawntrail foi testado para medir o desempenho de jogo de cada configuração DRAM. O objetivo é descobrir a configuração DRAM que pode lidar com tarefas de IA e jogos ao mesmo tempo sem comprometer o desempenho.
Fig. 1: Este gráfico mostra os tokens/segundo para cada uma das configurações de DRAM testadas em diferentes LLMs utilizando apenas a CPU.
Fig.2: Desempenho das configurações de DRAM testadas quando os LLMs são executados com a RTX 4090. Os resultados estão em tokens/segundo.
Fig.3: Medida da utilização da memória do sistema durante a execução de cada LLM. CPU vs CPU e GPU. Os resultados são aproximadamente em GBs.
FFXIV Dawntrail benchmark para cada uma das configurações de DRAM testadas.
Algumas observações importantes os resultados.
As configurações de 32 GB e 48 GB não foram capazes de se ajustar ao modelo DeepSeek-R1 (70B) ao usar apenas a CPU. Mesmo com a RTX 4090 usada, 32GB de DRAM está no limite quando o modelo 70b está em uso.
A velocidade mais elevada do kit CUDIMM de 8400 MT/s supera qualquer outra configuração de DRAM em jogos, mas mesmo com uma RTX 4090 a executar um modelo de IA de grande dimensão, não resta muita memória disponível.
Para cargas de trabalho pesadas de IA, a capacidade da DRAM desempenha um papel crítico, especialmente com modelos maiores. No entanto, para sistemas híbridos que gerem jogos e IA, a otimização da velocidade e da latência é igualmente importante. Com LLMs continuamente optimizados para diferentes hardwares e os requisitos são reduzidos, seria melhor ter capacidade de memória extra para que um modelo maior pudesse ser executado no sistema para obter resultados mais precisos.
Com base nas considerações descritas acima, o kit DRAM de escolha é o CMH96GX5M2B7000C40.
REGISTO DE PRODUTOS