CodeQuant : Clustering unifié et quantification pour une meilleure gestion des outliers dans les Mixture-of-Experts à faible précision
CodeQuant introduit une méthode combinant clustering et quantification visant à améliorer la précision des modèles MoE quantifiés en faible précision, en traitant efficacement les outliers. Cette innovation réduit les coûts mémoire et accélère les déploiements sans sacrifier la qualité des inférences, avec une implémentation démontrée sur des modèles à grande échelle.
