Pe măsură ce volumele de lucru AI devin din ce în ce mai solicitante, selectarea configurației DRAM potrivite este esențială pentru îmbunătățirea performanței. Dar ce contează mai mult, viteza sau capacitatea? În acest articol, cinci kituri DRAM diferite vor fi evaluate pe un PC de jocuri/AI pentru a găsi cea mai bună configurație DRAM.
Diferite configurații DRAM vor fi testate cu ajutorul instrumentului Ollama, măsurând token-urile pe secundă și utilizarea memoriei în cadrul a trei modele lingvistice mari (LLM).
Platforma de testare constă din:
Au fost evaluate trei LLM (Large Language Models) de dimensiuni diferite, cu cerințe de memorie diferite:
Utilitarul Ollama a fost utilizat pentru a încărca diferitele modele. Ollama oferă un scor de tokens/secundă pentru a măsura viteza de inferență. Utilizarea memoriei a fost urmărită pentru a identifica modul în care diferite configurații DRAM gestionează fiecare model. Solicitările testate sunt următoarele:
În cele din urmă, benchmark-ul Final Fantasy XIV Dawntrail a fost testat pentru a măsura performanța de joc a fiecărei configurații DRAM. Scopul este de a descoperi configurația DRAM care poate face față sarcinilor AI și jocurilor în același timp, fără a compromite performanța.
Fig,1: Acest grafic arată numărul de jetoane/secundă pentru fiecare dintre configurațiile DRAM testate în diferite LLM-uri care utilizează doar CPU.
Fig.2: Performanța configurațiilor DRAM testate atunci când LLM-urile rulează cu RTX 4090. Rezultatele sunt exprimate în tokens/secundă.
Fig.3: Măsurarea utilizării memoriei sistemului în timpul rulării fiecărui LLM. CPU vs CPU și GPU. Rezultatele sunt aprox. în GBs.
FFXIV Dawntrail benchmark pentru fiecare dintre configurațiile DRAM testate.
Câteva observații importante privind rezultatele.
Configurațiile de 32 GB și 48 GB nu s-au putut potrivi modelului DeepSeek-R1 (70B) atunci când se utilizează doar CPU. Chiar și cu RTX 4090 utilizat, 32 GB de DRAM este la limită atunci când este utilizat modelul 70b.
Viteza mai mare a kitului CUDIMM de 8400 MT/s depășește orice altă configurație DRAM în jocuri, dar chiar și cu un RTX 4090 care rulează un model AI de dimensiuni mari, nu mai există multă memorie disponibilă.
Pentru volumele de lucru cu IA intensă, capacitatea DRAM joacă un rol esențial, în special în cazul modelelor mai mari. Cu toate acestea, pentru sistemele hibride care gestionează atât jocuri, cât și AI, optimizarea vitezei și latenței este la fel de importantă. Cu LLM-uri optimizate continuu pentru diferite hardware-uri și cerințele sunt reduse, cel mai bine ar fi să aveți o capacitate suplimentară de memorie, astfel încât un model mai mare să poată rula în sistem pentru a obține rezultate mai precise.
Pe baza considerațiilor prezentate mai sus, kitul DRAM ales este CMH96GX5M2B7000C40.
PRODUSE ÎN ARTICOL