Gemma 4 12B est un modèle d’intelligence artificielle développé par Google pour traiter du texte, des images et de l’audio directement sur une machine personnelle. Cette vidéo présente son architecture allégée, puis montre comment l’installer pour profiter d’une expérience proche de ChatGPT en local.
Un modèle multimodal sans encodeur classique
Habituellement, un modèle de langage s’appuie sur des encodeurs séparés pour transformer les images ou le son avant leur analyse. Gemma 4 12B réduit fortement cette étape : les images passent par un petit module qui projette les pixels et leur position, tandis que l’audio brut est découpé en extraits de 40 millisecondes.
Cette approche diminue le nombre de paramètres dédiés au traitement multimodal et évite une partie de l’attente provoquée par les encodeurs. Le modèle reste ainsi suffisamment léger pour fonctionner avec 16 Go de mémoire vive. Sur un MacBook M3 Pro, la démonstration atteint environ 15 à 20 tokens par seconde.
Installer Gemma 4 12B avec Ollama
Le modèle est disponible notamment sur Hugging Face et Ollama. Après avoir installé Ollama, la commande de téléchargement récupère la version 12B, qui pèse environ 7 Go. Il est ensuite possible de lancer le modèle dans le terminal et de discuter directement avec lui.
Retrouver une interface proche de ChatGPT
Open WebUI apporte une interface graphique locale connectée à Ollama. Son installation avec Docker permet de suivre le raisonnement du modèle, de générer du code et de l’exécuter depuis la conversation. La vidéo teste notamment plusieurs implémentations de la suite de Fibonacci en Python.
Open WebUI permet aussi d’ajuster la température, top_p et top_k pour contrôler la
créativité et la cohérence des réponses.
Regardez la vidéo complète pour suivre l’installation pas à pas et découvrir Gemma 4 12B en action sur un ordinateur personnel.