Un laboratoire de recherche autrichien fait jouer les IA à Mathador
En octobre 2024, Eldar Kurtic, Amir Moeini et Dan Alistarh, trois chercheurs de l’ISTA en Autriche (Institute of Science and Technology of Austria) publiaient une étude scientifique pour présenter Mathador-LM, un nouveau benchmark pour évaluer le raisonnement mathématique sur les Grands Modèles de Langage (Large Language Model, LLM) utilisés dans de nombreux modèles d’IA. Combinant l’interprétation des règles, la planification et la résolution de problèmes, ce benchmark inspiré du jeu Mathador a donné du fil à retordre à plusieurs IA ! Nous avons interviewé les chercheurs de l’équipe sur leurs résultats.
Quelle sont vos domaines d’expertise en tant que chercheurs à l’ISTA ?
Nous sommes un laboratoire de recherche qui travaille sur les Grands Modèles de Langages (LLM). Notre équipe s’intéresse plus spécifiquement à l’amélioration de l’efficacité de ces modèles et à leur évaluation.
Dans votre récente publication, vous avez utilisé le jeu Mathador comme support pour votre test d’évaluation des IA. Comment l’idée d’utiliser Mathador vous est-elle venue ?
Au début de l’année 2024, la fille de l’un des auteurs de l’étude a participé au Concours Mathador avec la classe du professeur Viviane Jenovacki du Lycée Français de Vienne. C’est à cette occasion qu’est née l’idée de comparer les résultats de cette classe avec des modèles IA populaires tels que ChatGPT, Claude ou Llama. A notre grand étonnement, lors de nos premiers tests, il est apparu tout de suite qu’en moyenne les enfants réussissaient beaucoup mieux aux épreuves [Mathador] que les modèles IA.
Pourriez-vous décrire très simplement pour un public non expert ce qu’est un LLM et quel était l’objectif de votre étude ?
Un Grand Modèle de Langage (LLM) est un type de modèle d’Intelligence Artificielle (IA) qui est spécialement entraîné à donner des réponses écrites cohérentes. Ces modèles sont devenus très populaires suite au succès de ChatGPT qui fut le premier modèle à être considéré comme utile et « « intelligent ». Notre objectif était de tester la performance de ce type de modèles sur des tâches complexes de raisonnement, qui sont également un peu difficiles pour les humains. Mathador était un bon exercice d’évaluation pour ce type de test car il existe beaucoup de données sur les performances humaines et certaines données sont accessibles publiquement.
En tant qu’éditeur du jeu numérique Mathador, nous sommes souvent confrontés à la complexité d’évaluer de manière juste le niveau de difficulté d’un tirage Mathador, car un même titrage possède plusieurs solutions aussi bien très simples que complexes. Avez-vous aussi été confrontés à cette difficulté au moment de concevoir votre benchmark basé sur Mathador ?
Oui, ce fut l’un des paramètres que nous avons soigneusement pris en compte dans le jeu. Notre manière de l’aborder fut de calculer, pour chaque tirage, le nombre de solutions distinctes (tenant compte de la commutativité). Les épreuves avec le plus de solutions étaient considérés comme « plus faciles ». Nous avons ensuite étudié la corrélation entre la performance des modèles IA et la difficulté des tirages, et nous avons découvert une forte corrélation entre la probabilité qu’un modèle trouve une solution correcte et la difficulté du tirage.
Dans vos observations, vous déclarez que les modèles d’IA que vous avez étudiés « performent de manière significative moins bien qu’un élève moyen de CE2 ». Comment expliquez-vous que ces modèles sont aussi mauvais pour résoudre ce type de problèmes mathématiques plutôt simple ? Pensez-vous que cette limite sera résolue avec les prochains modèles IA, ou est-elle intrinsèquement lié au fonctionnement de ces LLM ?
Cette observation fut effectivement étonnante. Nous nous attendions à ce que les modèles performent au moins aussi bien qu’une personne lambda, d’autant plus que les modèles étaient avantagés par rapport aux élèves : par exemple, ils n’avaient pas de temps limite pour trouver une bonne solution, et nous leur permettions de donner plusieurs solutions à un même tirage, en ne conservant que les solutions justes.
Néanmoins, il y a plusieurs explications à cette observation :
- 1. Les modèles que nous avons testés n’ont (de façon générale) pas été entrainés sur ce type de problèmes mathématiques. Ils sont généralement assez mauvais sur les tâches de recherche de solutions combinatoires dans lesquelles ils doivent prendre en compte une grande quantité de solutions possibles, et utiliser leur « intuition » ou l’heuristique, qui sont, d’après notre expérience, l’une des stratégies de résolution classique pour résoudre un tirage Mathador
- .
- 2. Cette limite semble être typique de cette famille de modèles d’IA. Cependant, lever cette limite est un domaine de recherche actif : par exemple, la nouvelle famille des modèles o1 d’OpenAI inclut des tâches de recherche dans leurs données d’entraînement, et nous avons observé que ces modèles performaient bien mieux sur ce type de tâches.
(Une approche intéressante utilisée par l’une des précédentes versions de GPT4 était de générer du code afin d’effectuer une recherche par force brute de la solution, et d’exécuter ensuite le code pour donner une réponse. Cela fonctionnait assez bien, mais il est intéressant de noter que les versions plus récentes ne semblent pas fonctionner de la sorte lorsqu’elle leur donne un tirage Mathador, et nous ne l’avons pas fait explicitement car ce n’est pas dans l’esprit du Concours.)
Les modèles d’IA évoluent très rapidement. De nouvelles versions sont publiées tous les mois avec parfois des améliorations conséquentes. Envisagez-vous de continuer à tester votre benchmark Mathador-LM avec des modèles d’IA plus récents comme Claude Sonnet 3.5 ou GPT o1 ?
Nous avons testé Mathador-LM sur Claude 3. Bien que les scores étaient meilleurs, ils restaient en dessous de la moyenne des humains. Nous sommes enthousiastes à l’idée de tester les nouveaux modèles o1 (qui viennent de sortir) qui devraient performer bien mieux à Mathador. Nous nous attendons à ce que les nouveaux modèles soient meilleurs sur ce type de tâche, mais en même nous pouvons rendre la tâche plus complexe.
Nous réfléchissons souvent sur de potentiels usages des modèles IA dans Mathador afin d’aider les enseignants (pour la génération de learning analytics améliorés par exemple) ou encore les élèves (pour les aider par exemple dans leurs raisonnements mathématiques). En tant qu’expert en LLM, pensez-vous que, dans un avenir proche, ce type de modèle d’IA pourra devenir un outil pédagogique utile en mathématiques ?
Absolument ! Côté élèves, nous pensons que les modèles IA pourraient être utilisés comme des « calculatrices sophistiquées » afin de décharger certaines des tâches fastidieuses des élèves ou d’obtenir immédiatement des retours automatisés sur leurs devoirs. Côté enseignants, les modèles génératifs pourraient être un outil utile pour enrichir des supports de cours (par exemple, en générant des illustrations ou du code de base). Cependant, nous croyons fermement qu’il est bénéfique pour les élèves de développer leurs compétences analytiques et leur intuition à travers des jeux tels que Mathador. Il ne faudrait pas que l’on utilise les LLM comme une excuse pour ne pas exercer notre cerveau !
Vous avez récemment présenté votre publication à la conférence EMNLP à Miami. Comment le public a-t-il reçu vos résultats et avez-vous eu des retours intéressants que vous souhaiteriez partager avec nous ?
C’est surtout le concept d’un benchmark dynamique qui a attiré l’attention du public : pour éviter que les modèles ne « trichent » en mémorisant les réponses à des tirages Mathador spécifiques du benchmark, nous avons généré un nouveau mélange de tirages de difficulté similaire au moment du test, et avons obtenu des résultats stables. Les participants à la conférence ont également souligné que nous avons besoin de ces types de benchmark qui mesurent l’intelligence fluide des LLM et qui encouragent leur amélioration.
[Interview traduite de l’anglais]
L’Equipe Mathador remercie toute l’équipe de recherche de l’ISTA, et en particuliers M. Dan Alistarh et M. Eldar Kurtic, pour le temps qu’ils nous ont accordé pour répondre à nos questions. Vous pouvez retrouver l’étude complète via le lien ci-dessous.