Quel outil pour quel usage ?
Modèles fondamentaux, applications grand public, outils de développement, recherche scientifique — une cartographie factuelle de plus de 30 outils répartis en 5 catégories.
Génération d'images, de vidéos, de musique : Google consolide ses outils créatifs dans un écosystème unifié. Tour d'horizon de ce qui existe et de ce que ça fait concrètement.
Interface unifiée qui regroupe la génération d'images, de vidéos et de musique. L'abonnement Pro donne accès à 1500 crédits mensuels. Concrètement, c'est le point d'entrée unique vers Imagen, Veo et Lyria.
Modèle de génération vidéo text-to-video. Peut produire des clips avec audio synchronisé, jusqu'en 4K. Succède à Veo 2, avec une meilleure cohérence temporelle entre les frames.
Modèle léger conçu pour tourner directement sur l'appareil (on-device). Pensé pour le prototypage rapide et l'itération, sans dépendre du cloud. Moins puissant qu'Imagen 4, mais quasi instantané.
Outil de remixage visuel : on uploade des images, on les combine, on transforme les styles. Fonctionne par manipulation directe plutôt que par prompt textuel. Accessible sans compétences techniques.
Modèle principal de génération d'images de Google. Produit des rendus photoréalistes avec un bon respect de la typographie intégrée. C'est le moteur qui alimente la plupart des sorties visuelles de l'écosystème.
Modèle de génération audio/musicale. Permet de créer des morceaux, des ambiances sonores et des bandes-son à partir de descriptions textuelles. Intégré à Flow, accessible aussi via l'API.
Après la création, la productivité :
où Gemini s'intègre vraiment.
Gemini est désormais intégré dans la quasi-totalité de la suite Google Workspace. Voici ce que chaque brique fait réellement et où elle intervient.
Assistant IA intégré dans Docs, Sheets, Slides, Gmail et Meet. Gemini Live ajoute une couche conversationnelle vocale. En pratique, c'est l'équivalent Google de Copilot dans Microsoft 365.
Interface web pour tester les modèles Gemini, ajuster des prompts et prototyper sans écrire de code. Donne accès aux différentes versions de Gemini et permet d'exporter vers l'API Vertex.
Agent IA capable de naviguer dans Chrome pour exécuter des tâches web : recherches, remplissage de formulaires, comparaisons de prix. Fonctionne comme une extension Chrome supervisée par l'utilisateur.
Système de personnalisation de Gemini. On définit un jeu d'instructions et un contexte, et on obtient une version spécialisée de l'assistant. Comparable aux GPTs d'OpenAI, dans l'écosystème Google.
Trois outils orientés analyse, synthèse et compréhension de documents. C'est probablement le segment où Google a le plus d'avance grâce à sa fenêtre de contexte et son accès aux données.
On importe des documents (PDF, articles, notes) et on pose des questions dessus. L'IA répond en citant uniquement les sources fournies. La fonction Audio Overviews génère un résumé sous forme de podcast entre deux voix synthétiques.
Agent de recherche automatisé. On lui donne un sujet, il explore des dizaines de sources web, les compile et produit un rapport structuré avec citations. Positionné face à la Deep Research de Claude Opus 4.6 et ChatGPT.
Espace de travail collaboratif intégré à Gemini. Permet d'écrire, réviser et itérer sur des textes ou du code dans un panneau latéral. Pensé pour l'éducation, mais utilisable pour tout travail rédactionnel.
Quatre outils, quatre approches
du développement assisté.
Google attaque le marché des outils de développement IA avec quatre produits aux approches très différentes : un IDE, un agent autonome, un convertisseur design-to-code et un outil no-code vocal.
IDE (éditeur de code) nativement intégré à Gemini. Complétion contextuelle, refactoring assisté, debugging par conversation. Se positionne face à Cursor et Windsurf. Encore en accès limité.
Agent de développement asynchrone. On lui assigne une tâche (correction de bug, migration, PR) et il travaille en arrière-plan sur le dépôt GitHub. Livre un diff prêt à reviewer. Concurrent direct de Claude Code et Devin.
Convertisseur design-to-code. Accepte des maquettes Figma, des captures d'écran ou des croquis et génère des composants front-end fonctionnels. Vise le même terrain que Vercel v0 ou Bolt.
Outil no-code piloté par la voix. On décrit oralement ce qu'on veut, Opal génère l'application. Orienté vers les non-développeurs qui veulent créer des outils internes ou des prototypes sans écrire de code.
Le segment où Google n'a pas vraiment de concurrence directe. Ces modèles opèrent à l'échelle de la recherche fondamentale — protéines, génome, climat, observation terrestre.
Prédit la structure 3D des protéines à partir de leur séquence d'acides aminés. A valu un Prix Nobel de chimie 2024 à Demis Hassabis. Base de données ouverte de 200M+ de structures.
Modèle d'analyse génomique. Interprète les séquences ADN pour prédire l'impact des mutations et les interactions entre gènes. Utilisé en recherche biomédicale.
Modèle de prévision météorologique par IA. Surpasse les systèmes traditionnels de modélisation atmosphérique sur certaines métriques, notamment les prévisions à 10 jours.
Système d'observation terrestre par analyse satellite. Cartographie des écosystèmes, suivi de la déforestation, détection des changements environnementaux à grande échelle.