Google a récemment lancé un nouveau modèle d'intelligence artificielle multimodale côté appareil open source, Gemma 3n, qui se vante de pouvoir déployer des modèles hautes performances côté appareil, permettant aux appareils tels que les téléphones mobiles, les tablettes et les ordinateurs portables d'avoir également des capacités de calcul multimodales qui n'étaient auparavant disponibles que sur les modèles basés sur le cloud.
Le modèle Gemma 3n est désormais disponible sur Hugging Face, avec une documentation technique complète et des directives de développement fournies simultanément.
La conception de l'architecture multimodale prend entièrement en charge le texte, l'image, l'audio et la vidéo
Gemma 3n最大亮點在於其原生支援影像、音訊、視訊與文字輸入,並且能輸出自然語言文字結果。此次發表版本提供E2B (有效參數約20億組)與E4B (約40億組)兩種版本,具備極高的運算效率,但實際效能卻可達傳統50億組與80億組參數規模的模型級別。
De plus, Gemma 3n utilise la nouvelle architecture MatFormer (Matryoshka Transformer), qui offre une inférence élastique. Elle permet également aux développeurs de changer librement d'échelle de modèle grâce à une approche Mix-n-Match, créant ainsi la version de modèle adaptée aux ressources de l'appareil. Elle fonctionne parfaitement avec seulement 2 ou 3 Go de mémoire.
Architecture mémoire repensée côté appareil : technologie embarquée PLE par couche
Gemma 3n utilise une technologie appelée PLE (Per-Layer Embedding), qui alloue certains paramètres au processeur et à la mémoire, ne conservant que les poids de transformateur les plus critiques dans l'accélérateur d'IA. Cela améliore considérablement l'efficacité de l'utilisation de la mémoire et permet aux appareils d'entrée de gamme d'effectuer des inférences de modèles proches de celles du cloud.
Prend en charge le traitement plus rapide des textes longs et la traduction vocale : cache KV et encodeur vocal entièrement mis à niveau
Pour la saisie de textes longs et de séquences multimédias, Gemma 3n introduit un nouveau mécanisme de partage de cache KV afin d'accélérer la génération du premier mot et de permettre un traitement plus immédiat des flux vidéo ou vocaux. Le module vocal intègre un codec vocal dérivé de l'USM de Google, prenant en charge la reconnaissance vocale automatique (ASR) et la traduction vocale (AST). La prise en charge initiale inclut la traduction de l'anglais vers l'espagnol, le français, l'italien, le portugais et d'autres langues.
Nouveau MobileNet-V5 : analyse d'images en temps réel sur l'appareil
En termes de traitement visuel, Gemma 3n est équipé d'un nouvel encodeur visuel MobileNet-V5, prenant en charge les entrées multirésolutions de 256 à 768 pixels. Il intègre également la base MobileNet-V4 et l'architecture de fusion multi-échelle, permettant une accélération multipliée par 13 et une réduction de l'utilisation de la mémoire par 4 sur le Google Pixel Edge TPU. Parallèlement, la précision dépasse celle de la solution SoViT sans distillation.
Gemma 3n représente une avancée significative dans la stratégie d'IA sur appareil de Google, renforçant son leadership technologique dans les modèles multimodaux et ouvrant la voie aux futures solutions d'IA sur appareil. À l'avenir, la série Gemma devrait poursuivre son objectif de modèles plus compacts et de performances accrues, permettant ainsi davantage d'expériences d'IA natives sur appareils mobiles.










