ORAgentBench : Les agents LLM peuvent-ils résoudre des tâches complexes de recherche opérationnelle de bout en bout ?
9/10Cet article évalue la capacité des agents basés sur de grands modèles de langage (LLM) à exécuter de manière autonome des tâches complexes en recherche opérationnelle via des workflows intégrés. Il met en avant à la fois les capacités et les limites actuelles observées lors des essais.
