Le VASA-1 de Microsoft donne vie aux photos : tout ce que vous devez savoir

Alors que les technologies d’IA évoluent rapidement et repoussent les limites, le nouveau projet de Microsoft, VASA-1, peut transformer des photos en vidéos et y ajouter des sons réalistes. Oui, vous avez bien entendu.

Cette technologie passionnante utilise une photo de portrait et un fichier audio pour créer une vidéo de visage parlant avec une synchronisation labiale, des expressions faciales et des mouvements de tête réalistes.

La puissance promise du VASA-1 soulève certaines inquiétudes qui ont fait hésiter Microsoft à le publier. Voici ce que nous savons…

Capacités et impact de VASA-1

La caractéristique la plus frappante de VASA-1 est sa capacité à produire des animations faciales réalistes. Contrairement aux modèles AI précédents, VASA-1 offre un aspect plus naturel en minimisant les erreurs autour de la bouche. Cela pourrait conduire à une diffusion plus large de vidéos deepfake plus réalistes en ligne.

Grâce à la nouvelle technologie de Microsoft, des résultats réalistes et de haute qualité sont possibles. Les vidéos de démonstration de la société fournissent des exemples impressionnants qui brouillent les frontières entre la réalité et le contenu généré par l’IA.

Il sera intéressant de voir ce que Sora d’OpenAI et VASA-1 de Microsoft nous réservent dans les années à venir…

La société a expliqué dans un article de blog ce qui suit :

Remarque : toutes les images de portraits sur cette page sont des identités virtuelles et inexistantes générées par StyleGAN2 ou DALL·E-3 (sauf pour Mona Lisa). Nous explorons la génération de compétences visuelles et émotionnelles pour des personnages virtuels et interactifs qui n’imitent PAS une personne du monde réel. Il ne s’agit que d’une démonstration de recherche et il n’est pas prévu de commercialiser des produits ou des API.

Domaines d’utilisation de VASA-1

Les utilisations de VASA-1 sont vastes et peuvent repousser les limites de la créativité. Par exemple, il peut être utilisé pour offrir des expériences de jeu améliorées. Rendre les personnages du jeu plus réalistes grâce à des mouvements de lèvres synchronisés et des expressions faciales expressives pourrait transformer le monde du jeu vidéo. Même maintenant, les personnages des jeux sont incroyablement optimisés. Cependant, avec cette technologie, ils sont susceptibles de s’améliorer encore davantage.

D’autre part, des avatars virtuels personnalisés pourraient également être créés. Les utilisateurs pourraient faire la différence sur les réseaux sociaux en créant des avatars réalistes qui reflètent leur propre apparence. L’industrie cinématographique pourrait également connaître des changements surprenants. VASA-1 pourrait repousser les limites du cinéma en créant des gros plans réalistes, des expressions faciales et des séquences de dialogue naturelles.

Comment fonctionne la technologie et l’avenir

Microsoft affirme que VASA-1 offre un nouveau cadre pour créer des visages parlants réalistes et animer des personnages virtuels. La technologie vise à obtenir des résultats impressionnants en utilisant uniquement une photo portrait et un fichier audio. Cependant, l’utilisation généralisée de cette technologie suscite certaines inquiétudes. En particulier, le potentiel d’utilisation abusive de technologies telles que les deepfakes pousse Microsoft à la prudence.

L’un des défis auxquels Microsoft est confronté consiste à équilibrer innovation et responsabilité. Consciente des avantages potentiels de la technologie, l’entreprise adopte une approche responsable du développement et essaie d’informer les utilisateurs des dangers potentiels. De cette manière, il vise à contrôler la diffusion d’une technologie puissante comme VASA-1, garantissant ainsi la sécurité globale de la société.

Crédit image en vedette : Microsoft

Source: Le VASA-1 de Microsoft donne vie aux photos : tout ce que vous devez savoir