GEMQ : Quantification Mixte Globale au Niveau Expert pour les Modèles MoE LLM
9/10GEMQ propose un schéma de quantification mixte à précision variable pour les modèles MoE à grande échelle, attribuant un nombre de bits adapté à chaque expert selon son importance. Cette méthode permet de réduire drastiquement la mémoire utilisée sans dégrader les performances du modèle, améliorant ainsi l'efficacité de déploiement en production sur des infrastructures limitées.
