Microsoft a annoncé MAI-Image-1, son premier modèle de génération d’images développé entièrement en interne. La société a déclaré que le modèle serait disponible « très bientôt » sur Copilot et Bing Image Creator et qu’il est actuellement disponible pour des tests sur LMArena, une plate-forme où les utilisateurs évaluent deux chatbots anonymes et votent pour la meilleure réponse.

Dans le classement texte-image de LMArena, MAI-Image-1 s’est classé neuvième, avec un score de 1 096 points. À titre de comparaison, le Gemini-2.5-Flash de Google, également connu sous le nom de Nano-Banana, a obtenu 1 154 points et occupe la deuxième place, tandis que le modèle OpenAI a obtenu 1 123 points pour la septième place. Le classement est mené par Hunyuan-image-3.0, un modèle développé par la société technologique chinoise Hunyuan.

Microsoft a déclaré que son équipe de développement s’est efforcée d’éviter les sorties répétitives ou stylisées de manière générique avec MAI-Image-1. « Par exemple, nous avons donné la priorité à une sélection rigoureuse des données et à une évaluation nuancée axée sur des tâches qui reflètent fidèlement des cas d’utilisation créatifs réels », a expliqué la société, ajoutant qu’elle avait intégré les commentaires des professionnels des industries créatives.

Le modèle excellerait dans la génération de paysages et d’images photoréalistes. Ses performances sont remarquables pour capturer avec précision des détails tels que l’éclairage, les ombres et les reflets, en particulier par rapport à « de nombreux modèles plus grands et plus lents ».

En plus de MAI-Image-1, Microsoft a développé d’autres modèles internes, notamment MAI-Voice-1 pour la génération naturelle de la parole et la série Phi de petits modèles de langage conçus pour des tâches de raisonnement efficaces. Ce développement interne s’accompagne du soutien financier et infrastructurel continu de l’entreprise pour OpenAI.

Le domaine de la génération d’images IA connaît actuellement une période de forte activité. Le modèle d’OpenAI a récemment attiré l’attention virale pour sa capacité à imiter le style artistique du Studio Ghibli, tandis que le “Nano-Banana” de Google a été reconnu pour ses capacités d’édition avancées.

À l’aide de LMArena, AIM a effectué une comparaison entre MAI-Image-1 de Microsoft, Gemini-2.5-Flash de Google et GPT-image-1 d’OpenAI. Les modèles ont été testés avec une invite représentant deux personnes dans un café près d’une fenêtre en fin d’après-midi. L’évaluation s’est concentrée sur la façon dont chaque modèle a géré l’éclairage mixte, les reflets et le réalisme des ombres. Les utilisateurs peuvent visiter LMArena pour tester ces modèles avec des invites similaires.