KIV : Fenêtre de contexte de 1 million de jetons sur une RTX 4070 sans réentraînement
KIV propose un système de cache KV multicouche compatible avec tout modèle HuggingFace utilisant DynamicCache, fonctionnant sur une RTX 4070 (12 Go VRAM). Ce mécanisme permet d'étendre la fenêtre de contexte à 1 million de jetons sans nécessité de réentraînement, optimisant ainsi les performances mémoire et le coût d'inférence.
