Une méthodologie au niveau des couches pour la quantification post-entraînement des grands modèles de langage
9/10Cet article présente la méthode Scaled Outer Product (SOP) qui permet une quantification post-entraînement à 4,5-6 bits par poids, layer-wise, avec un décodage LUT spécifique au matériel, aboutissant à une fidélité quasi sans perte. Cette approche optimise la taille des modèles et leur efficacité sur du hardware dédié, réduisant significativement le coût et la latence d'inférence.
