Google a récemment annoncé une étude avec l'Université Carnegie Mellon et MultiOn, une startup axée sur la technologie des agents d'intelligence artificielle.Rapport de recherche sur l'utilisation de données synthétiques pour la formation de modèles d'intelligence artificielle à grande échelle, soulignant que les données synthétiques augmenteront de 8 fois la capacité d'inférence de l'intelligence artificielle.
Dans ce rapport, les chercheurs ont mené une analyse à l’aide de deux types de données synthétiques : des données positives provenant de modèles d’intelligence artificielle à grande échelle tels que Gemini 1.5 Pro et GPT-4 qui ont produit des solutions correctes, et des données négatives provenant de problèmes qui ont été résolus de manière incorrecte.
Si le modèle d'IA est entraîné uniquement avec des données positives, ses capacités de réponse seront limitées. Il risque de ne pas comprendre pleinement la « logique de raisonnement » qui sous-tend la résolution de problèmes et d'avoir tendance à inférer des réponses à l'aide de méthodes de comparaison traditionnelles. Parallèlement, à mesure que le volume de données d'entraînement augmente, le modèle d'IA est plus susceptible d'apprendre des réponses incorrectes, ce qui affecte la précision de ses inférences générales.
Par conséquent, l'introduction de données négatives dans le modèle d'apprentissage aidera le modèle d'IA à apprendre de ses erreurs, évitant ainsi les erreurs lors des inférences ultérieures et renforçant sa capacité de raisonnement logique. Cependant, l'utilisation de données négatives peut également contenir des informations erronées. Par conséquent, les résultats d'apprentissage du modèle d'IA doivent être corrigés en cours de processus afin d'éviter que des informations erronées ne soient assimilées à du contenu correct.
Les deux méthodes de génération synthétique de données mentionnées précédemment permettront à l'IA d'apprendre plus efficacement. L'équipe de recherche a testé les modèles DeepSeek-Math-7B et LLaMa2-7B sur l'ensemble de données GSM8K, qui comprend des problèmes mathématiques multilingues de haute qualité pour l'école primaire, et l'ensemble de données MATH, composé de 12500 8 questions de concours mathématiques complexes couvrant l'algèbre, la géométrie, les probabilités, la théorie des nombres et d'autres domaines. Les résultats ont montré qu'en s'entraînant avec des données positives et négatives générées synthétiquement, la capacité de raisonnement logique du modèle d'IA peut être considérablement améliorée, jusqu'à huit fois. Cela signifie que l'entraînement avec des données synthétiques améliorera l'efficacité de la création de modèles d'IA et produira des résultats d'inférence plus précis et plus fiables dans les applications.



