Lancé en juillet de cette annéeLlama 4050, un modèle d'intelligence artificielle avec une échelle de paramètres allant jusqu'à 3.1 milliards de groupesMeta a récemment annoncé Llama 700, qui a une échelle de paramètres de 3.3 milliards de groupes, et affirme que ses performances sont comparables, voire supérieures, à celles du modèle d'intelligence artificielle Llama 4050, qui a une échelle de paramètres de 3.1 milliards de groupes.Le modèle Nova récemment annoncé par Amazon.
Llama 700, avec une taille de paramètres de 3.3 milliards, est un modèle de langage naturel multilingue à grande échelle, pré-entraîné avec plus de 15 2500 milliards de mots et optimisé grâce à un jeu d'instructions public et plus de XNUMX millions de données synthétiques. Il est désormais disponible en open source sur GitHub et Hugging Face.Hébergement fourni.
Llama 3.3 utilise un modèle de langage autorégressif basé sur Transformer. Grâce au réglage fin supervisé (SFT) et à l'apprentissage par renforcement avec retour humain (RLHF), le modèle génère des résultats plus conformes aux attentes, tout en garantissant leur exactitude et leur sécurité. De plus, la fonctionnalité d'attention aux requêtes groupées (GQA) permet au modèle d'élargir le champ du contenu réceptif grâce à des inférences ultérieures.
Actuellement, Llama 3.3 prend en charge nativement l'anglais, l'allemand, l'espagnol, le portugais, l'italien, le français, le thaï et l'hindi, et peut être affiné pour prendre en charge davantage de langues.
En termes de performances opérationnelles, Meta a souligné que Llama 3.3 surpasse Llama 3.1 70B, Amazon Nova, Google Gemini Pro 1.5 et OpenAI GPT-4o, et est même comparable à la précédente version Llama 3.1 405B en termes de compréhension linguistique multitâche et d'éléments de test, notamment en finance, en mathématiques et en raisonnement d'apprentissage multitâche. Il est également capable de gérer des scénarios de dialogue multilingues, ce qui le rend particulièrement adapté aux applications commerciales et de recherche multilingues.
Présentation de Llama 3.3 – un nouveau modèle 70B offrant les mêmes performances que notre modèle 405B, mais avec une utilisation plus simple et plus économique. Bénéficiant des dernières avancées en matière de techniques post-formation, notamment l'optimisation des préférences en ligne, ce modèle améliore les performances de base… pic.twitter.com/6oQ7b3Yuzc
– Ahmad Al-Dahle (@Ahmad_Al_Dahle) 6 décembre 2024



