Vous souvenez-vous de la frustration de ne plus rien comprendre aux articles interminables ? Aujourd'hui, même l'IA s'attaque à ce problème. L'équipe de recherche de Google a récemment annoncé deux technologies révolutionnaires :Architecture des Titans et cadre MIRASL’objectif est de permettre aux modèles d’IA de « lire et mémoriser » comme le cerveau humain lors du traitement de quantités massives de contenu, et de mettre à jour les mémoires essentielles en temps réel.
Cette innovation résout non seulement le problème de coût de calcul des modèles Transformer traditionnels lors du traitement de séquences ultra-longues, mais démontre également une force étonnante qui surpasse GPT-4 dans les tests de raisonnement sur des textes extrêmement longs, et peut même gérer facilement des contextes contenant jusqu'à 200 millions de jetons.
Titans : Remplacer la mémoire par des réseaux neuronaux profonds
Les réseaux de neurones récurrents (RNN) traditionnels utilisent souvent des vecteurs de taille fixe pour stocker les données, ce qui revient à ne donner à un étudiant qu'une feuille de papier pour prendre des notes ; une fois la feuille pleine, il faut effacer les anciennes notes. L'innovation majeure de l'architecture Titans réside dans l'introduction d'un module de mémoire à long terme entièrement nouveau.
Ce module est un réseau neuronal profond (perceptron multicouche), conçu sur le modèle du cerveau humain qui sépare la mémoire à court terme de la mémoire à long terme. Grâce à cela, le modèle d'IA possède une plus grande capacité d'expression, lui permettant de comprendre et de synthétiser le récit dans son ensemble plutôt que de simplement mémoriser des informations, et d'apprendre activement à retenir les informations clés.
En imitant « l'indice de surprise » du cerveau humain : plus c'est inattendu, mieux on s'en souvient.
Le mécanisme par lequel l'architecture de Titans détermine « ce qu'il faut retenir et ce qu'il faut oublier » est assez intéressant ; l'équipe l'appelle la « métrique de surprise ».
Ce mécanisme imite un mécanisme psychologique humain : nous oublions facilement les habitudes, mais les événements inattendus marquent fortement nos esprits. Dans l’architecture des Titans, lorsqu’une nouvelle information s’écarte sensiblement de l’état de mémoire attendu du modèle (par exemple, l’apparition soudaine d’une image de peau de banane dans un rapport financier important), son gradient (niveau de surprise) atteint un pic, et le modèle privilégiera le stockage de cette information en mémoire à long terme.
Grâce à la combinaison d'un mécanisme d'inertie et d'une décroissance adaptative du poids (porte d'oubli), l'architecture Titans peut capturer efficacement les informations importantes de manière continue, tout en éliminant les anciennes données qui ne sont plus nécessaires, garantissant ainsi une efficacité élevée lors du traitement de séquences ultra-longues.
Cadre MIRAS : Toutes les méthodes mènent à la même source, ce qui lève la limitation de l’erreur quadratique moyenne
Le cadre MIRAS, publié simultanément avec l'architecture Titans, offre une perspective théorique unifiée. Il considère la modélisation de séquences comme différentes approches pour résoudre un même problème : comment combiner efficacement les informations nouvelles et anciennes.
Le cadre MIRAS s'affranchit des limitations des modèles précédents, trop dépendants de l'erreur quadratique moyenne, permettant la création d'architectures novatrices avec des fonctions objectives non euclidiennes. L'équipe de recherche a utilisé ce cadre pour développer trois modèles dérivés : « YAAD », « MONETA » et « MEMORA », optimisés pour différents besoins tels que la robustesse au bruit et la stabilité de la mémoire à long terme.
Performances réelles : Gère facilement 200 millions d'ensembles de marqueurs, surpassant les grands modèles à petits paramètres.
En matière de vérification pratique des performances, l'architecture Titans et la variante de framework MIRAS surpassent les architectures de pointe existantes telles que Mamba-2 et Transformer++ dans les tâches de modélisation du langage et de raisonnement de sens commun.
Plus impressionnant encore, lors du test de performance BABILong sur des textes extrêmement longs, l'architecture Titans a démontré une domination étonnante face aux défis de raisonnement factuel disséminés dans des documents extrêmement longs. Même avec un nombre de paramètres bien inférieur à celui de GPT-4, ses performances de raisonnement étaient supérieures et elle pouvait s'adapter efficacement à des fenêtres contextuelles contenant plus de 200 millions d'ensembles étiquetés. Cela signifie qu'à l'avenir, l'IA sera capable de déployer des capacités de « mémoire photographique » sans précédent dans des domaines tels que la compréhension de documents complets et même l'analyse du génome.

