Manuel ouvert sur l'inférence LLM à grande échelle (internes GPU, cache KV, batching, vLLM/SGLang/TensorRT-LLM)
9/10Ce manuel technique explore en détail l'exécution de l'inférence sur GPU pour les grands modèles linguistiques, abordant la gestion du cache clé-valeur, le batching et les optimisations bas niveau via vLLM, SGLang et TensorRT-LLM. Il met en lumière les principaux goulots d'étranglement et propose des pistes pour améliorer la latence et le débit lors de déploiements en production.
