Nouvelle recherche NVIDIA montre que le décodage spéculatif dans NeMo RL accélère la génération jusqu'à 1,8× à 8 milliards de paramètres
8/10La recherche récente de NVIDIA révèle que la technique de décodage spéculatif dans NeMo RL permet une accélération de la génération de déroulement de 1,8 fois pour des modèles de 8 milliards de paramètres. Elle projette aussi une accélération potentielle jusqu'à 2,5 fois de bout en bout pour des modèles de 235 milliards de paramètres, optimisant significativement les performances des modèles de deep learning gigantesques.
