Microsoft lance 3 nouveaux modèles MAI : transcription, voix et image

Microsoft vient d’annoncer le déploiement de trois nouveaux modèles d’intelligence artificielle dans son offre MAI (Microsoft AI). Disponibles dès aujourd’hui sur la plateforme Foundry, ces modèles visent à concurrencer directement les solutions d’OpenAI, Google et Anthropic sur les segments de la transcription, de la synthèse vocale et de la génération d’image.

Les faits : trois modèles spécialisés, des prix agressifs

Interface transcription IA Microsoft — L’interface de Microsoft Foundry pour tester les modèles MAI

MAI-Transcribe-1 est un modèle de transcription audio qui supporte 25 langues – les plus utilisées dans les produits Microsoft – et affiche des performances supérieures à Whisper-large-v3 et Gemini 3.1 Flash sur une majorité d’entre elles. Selon les benchmarks internes, il se classe premier sur 11 langues clés selon l’évaluation FLEURS, et devance Whisper-large-v3 sur les 14 langues restantes. Son tarif démarre à 0,36 $ par heure de transcription, ce qui le place en concurrence directe avec les offres d’OpenAI (Whisper) et de Google (Speech-to-Text).

MAI-Voice-1 est un moteur de synthèse vocale capable de produire une voix naturelle à partir de texte. Il est facturé 22 $ par million de caractères, un prix légèrement inférieur à celui de l’API Voice d’ElevenLabs (environ 30 $ par million de caractères). Microsoft promet une latence réduite et une expressivité adaptée à des scénarios professionnels (assistants vocaux, narration, support client).

MAI-Image-2 est un modèle de génération d’images qui promet une vitesse de traitement deux fois plus rapide que les précédentes versions, avec une qualité comparable. Il coûte 5 $ par million de tokens pour l’entrée texte et 33 $ par million de tokens pour la sortie image. Ce modèle a déjà fait ses preuves sur l’Arena.ai, où il figure parmi les trois meilleures familles de modèles. Les utilisateurs de Copilot bénéficient d’ailleurs de cette accélération, avec des temps de génération divisés par deux.

Les trois modèles sont dès maintenant accessibles aux développeurs via Microsoft Foundry, et peuvent être testés gratuitement dans le MAI Playground (limité aux États-Unis pour l’instant). Microsoft met également à disposition des model cards détaillées pour chaque modèle, documentant leurs capacités, leurs limites et les tests de sécurité réalisés. Ces documents détaillent notamment les jeux de données d’entraînement, les métriques d’équité et les mesures de réduction des biais.

Ce que ça change pour vous

Si vous êtes développeur ou entreprise utilisant déjà l’écosystème Microsoft, cette annonce signifie plus de choix et une pression sur les prix. Jusqu’ici, beaucoup se tournaient vers l’API OpenAI ou les solutions Google Cloud pour de la transcription ou de la synthèse vocale. Désormais, une alternative « maison » existe, avec l’avantage d’une intégration native dans les outils Azure et Microsoft 365. Pour les sociétés françaises, l’arrivée de MAI-Transcribe-1 est particulièrement intéressante : le modèle prend en charge le français et pourrait servir à automatiser la transcription de réunions, de podcasts ou de contenus multimédias.

Pour les startups et PME, la baisse des coûts de l’IA audio et image permet d’envisager des projets jusqu’ici trop onéreux. Imaginez un service client entièrement vocal, un outil de sous‑titrage automatique pour vos vidéos, ou un générateur d’illustrations pour vos articles de blog – le tout pour quelques dizaines d’euros par mois.

Pour les utilisateurs finaux, ces modèles vont progressivement alimenter les produits grand public de Microsoft – notamment Copilot – et devraient se traduire par des réponses plus rapides, une reconnaissance vocale plus précise et des images de meilleure qualité dans les outils quotidiens. Les abonnés Microsoft 365 verront peut‑être bientôt apparaître des fonctions de synthèse vocale dans PowerPoint ou de transcription automatique dans Teams.

Enfin, la stratégie « Humanist AI » revendiquée par Microsoft place l’humain au centre de la conception des modèles. Concrètement, cela se traduit par des entraînements axés sur les modes de communication réels et des garde-fous intégrés pour un déploiement responsable en entreprise. Les modèles MAI bénéficient d’une « red‑team » interne et de contrôles de conformité qui faciliteront leur adoption dans les secteurs régulés (santé, finance, administration).

Notre avis

Microsoft frappe fort avec une offre triple qui couvre trois besoins essentiels du marché de l’IA. Le positionnement tarifaire est clairement offensif – surtout sur la transcription – et devrait forcer les concurrents à réagir. La disponibilité immédiate sur Foundry montre aussi que Microsoft veut séduire les développeurs sans attendre. Cette stratégie rappelle celle de Google avec Gemma ou d’Anthropic avec Claude Code : publier des modèles spécialisés, bien optimisés, pour grignoter des parts de marché sur des niches précises.

Reste que le succès de ces modèles dépendra de leur qualité réelle en production. Les benchmarks présentés sont impressionnants, mais les utilisateurs finaux jugeront sur la fidélité de la transcription, le naturel de la voix et la cohérence des images. La limitation du Playground aux États-Unis est également un frein initial pour les testeurs internationaux, mais elle sera probablement levée dans les prochaines semaines.

Nous saluons la transparence de Microsoft, qui fournit des model cards détaillées – une pratique encore trop rare dans l’industrie. Cela permet aux équipes techniques d’évaluer les risques et les biais potentiels avant intégration.

Dans la course à l’IA, Microsoft mise sur la diversification de sa palette plutôt que sur un seul modèle « tout-en-un ». Une approche pragmatique qui pourrait payer si chaque spécialité tient ses promesses. Pour l’instant, le géant de Redmond montre qu’il peut rivaliser sur tous les fronts : du langage (avec les modèles Copilot) à l’audio et à l’image. Une chose est sûre : la concurrence ne va pas se reposer, et les mois à venir verront sans doute des baisses de prix et des améliorations techniques de la part d’OpenAI, Google et Anthropic.

Conseil pratique : si vous envisagez d’utiliser l’une de ces API, commencez par une période de test avec vos propres données. Comparez les résultats avec vos solutions actuelles, et évaluez le gain en qualité, vitesse et coût. N’hésitez pas à consulter notre comparatif des modèles IA pour développeurs pour vous aider dans votre choix.

Microsoft lance 3 nouveaux modèles MAI : transcription, voix et image

Microsoft lance 3 nouveaux modèles MAI : transcription, voix et image

Les faits : trois modèles spécialisés, des prix agressifs

Ce que ça change pour vous

Notre avis

À lire aussi

Sources

Vidéo explicative

Laisser un commentaire Annuler la réponse