La Chatbot Arena, arbitre officieux de la course à l'intelligence artificielle
Quand il s'agit de désigner le leader de la course à l'intelligence artificielle générative entre OpenAI, Google, Anthropic ou encore Mistral, les yeux se tournent vers la Chatbot Arena. Ce classement, alimenté en permanence par des contributions humaines prend de plus en plus de place, principalement en raison de l'insuffisance des méthodes d'évaluation traditionnelles.
Publié le 17-04-2024 par François Manens
Quel est le meilleur modèle d'intelligence artificielle ? Pour répondre à ce casse-tête, la Large Model Systems Organization (LMSYS), composée d'étudiants et de chercheurs américains, a lancé en mai 2023 un système d'évaluation innovant, la Chatbot Arena. Plutôt que d'essayer à tout prix de mesurer précisément la performance des intelligences artificielles, l'Arena les fait s'affronter dans des duels arbitrés par des humains.
Concrètement, le système propose à des contributeurs bénévoles (pas d'inscription nécessaire, il suffit d'aller sur leur page !) d'avoir une discussion en simultané avec deux modèles d'IA dont ils ne connaissent pas l'identité. Après avoir eu une conversation d'une longueur suffisante à leurs yeux, ils votent : pour un vainqueur, pour une égalité, ou pour indiquer que les deux sont mauvais. Les modèles révèlent alors leur identité au testeur, puis les résultats alimentent un système de classement par Elo comme aux échecs ou dans certains jeux vidéo compétitifs, qui pondère le score en fonction du classement de l'adversaire.
Crise de l'évaluation des modèles d'IA
Rapidement, la Chatbot Arena s'est imposée comme le classement de performance le plus commenté et le plus suivi de l'écosystème, notamment grâce à sa mise en avant sur Hugging Face. Au point qu'une des voix les plus écoutées de l'IA, Andrej Karpathy (cofondateur d'OpenAI et ancien directeur de l'IA de Tesla), le désignait comme le seul système d'évaluation de confiance. Et pour cause : la Chatbot
Lire la suiteLes dernières actualités
Publié le 30/04/2024 à 10:52:48
Stellantis : chute des ventes de 10% au premier trimestre frappées par le ralentissement de la demandePublié le 30/04/2024 à 10:43:37
Mis en examen, Arnaud Lagardère abandonne ses mandats du groupe Lagardère, dont celui de PDGPublié le 30/04/2024 à 10:43:32
Agriculture: première étape pour le projet de loi d'orientation examiné en commission à l'AssembléePublié le 30/04/2024 à 10:43:28
Air France-KLM a perdu plus de 5 millions d'euros par jour au premier trimestrePublié le 30/04/2024 à 10:43:23
Plombé par les grèves, Lufthansa triple ses pertes au premier trimestrePublié le 30/04/2024 à 10:43:23
La croissance française fait mieux que prévu au premier trimestrePublié le 30/04/2024 à 10:43:23
Spatial : pourquoi Unseenlabs va rester un leader implacable dans la détection radiofréquencePublié le 30/04/2024 à 10:43:18
La lutte contre le cancer à l’aube de la révolution de l’IAPublié le 30/04/2024 à 10:43:17
IA : ChatGPT visé par une nouvelle plainte pour diffuser de fausses informations sur les individus et ne pas les corrigerPublié le 30/04/2024 à 10:43:12
Assurance chômage : le gouvernement veut durcir les conditions des cadresPublié le 30/04/2024 à 10:43:10
Déficit public : 2025, l'année à ne pas rater pour le gouvernementPublié le 29/04/2024 à 11:02:46
Le dérèglement climatique au menu d'un très attendu sommet du G7 à TurinPublié le 29/04/2024 à 10:43:20
Affaire des respirateurs défectueux: aux Etats-Unis, Philips va payer 1,1 milliard de dollars aux plaignantsPublié le 29/04/2024 à 10:43:16
Atos cherche beaucoup plus d’argent pour s’en sortirPublié le 29/04/2024 à 10:43:15
Les 5 infos business à retenir ce lundi matin (Atos, EDF, HCSF, Yen, Boeing)Publié le 29/04/2024 à 10:43:11
Conditions d'octroi des crédits immobiliers : la réforme du Haut Conseil de stabilité financière (HSCF) discutée à l'AssembléePublié le 29/04/2024 à 10:43:10
Nucléaire : après 12 ans de retard, EDF va enfin mettre en service l’EPR de FlamanvillePublié le 29/04/2024 à 10:43:05
Frédéric Valletoux : « La révolution qu'il faut opérer en santé, c'est de faire confiance aux acteurs de terrain »Publié le 29/04/2024 à 10:42:58
Batteries reconditionnées : Volt-R annonce deux levées de fonds de plusieurs dizaines de millions d'eurosPublié le 28/04/2024 à 11:02:55
Cause palestinienne : le désaccord de trop pour la gauche française