IA vs Humain : qui performe le mieux sur 40 métiers ?
Les limites du benchmark GDPval d’OpenAi 👇
OpenAI lance le benchmark GDPval pour comparer les livrables IA vs humains :
- 9 secteurs d’activité (> 5% du PIB US)
- 40 métiers
- 30 tâches par métier
👉 Résultats :
- L’IA fait aussi bien ou mieux dans 1 cas sur 2
- GPT-5 suit mieux les consignes que Claude, Gemini et Grok
- Mais Claude Opus 4.1 reste meilleur sur l’esthétique
⚠️ Conclusion :
Si l’IA exécute 100 à 5000 fois plus vite, le gain réel tombe à +10 à +60% une fois la relecture humaine intégrée.
👉 Seulement 220 tâches sur 1320 étaient mesurables automatiquement (Excel, calculs...). Les autres nécessitaient un jugement humain (qualité, esthétique...).
Bref, c’est un bon outil de suivi des modèles dans le temps, mais pas une bonne mesure de l’impact réel sur le travail.
🔑 L’enjeu n’est pas IA vs Humain (IB), mais de définir, pour chaque tâche métier, la séquence IA + IB + IC (Intelligence Artificielle + Biologique + Collective).
Exemple sur le recrutement :
- Définir le workflow d'actions → Exprimer le besoin, rédiger l’annonce...
- Attribuer chaque action → Exprimer le besoin (IB), rédiger l’annonce (IA)...
- Expliciter les 6W par action (Who, What, Why, When, Where, How)
💬 Et vous :
- Quel impact concret voyez-vous de l’IA sur votre travail ?
- Avez-vous cartographié vos tâches selon IA / IB / IC ?
—
Plus de détail sur le benchmark :
Les 9 secteurs sélectionnés :
- Industrie manufacturière
- Administration publique
- Santé et aide sociale
- Finance et assurance
- Commerce de détail
- Commerce de gros
- Information
- Services professionnels/scientifiques/techniques
- Immobilier et location
Les 2 sets de livrables évalués :
1. Le Gold Set (220 tâches)
Pour les tâches factuelles, ne nécessitant aucun jugement humain (bien remplir un tableau Excel, faire un calcul, etc.)
2. Le Full Set (1320 tâches)
Pour les tâches nécessitant un jugement humain (esthétisme du livrable, etc.)
Résultats par set :
👉 L’IA fait mieux dans 47,6% des ca sur le Gold Set
👉 L’IA fait aussi bien ou mieux dans 50-55% des cas sur le Full Set