Les chercheurs de Microsoft ont dévoilé un nouvelle architecture appelée Visual ChatGPT, qui vise à combiner les atouts du traitement du langage naturel et de la génération d’images. La technologie représente une percée significative pour les algorithmes de conversion de texte en image, permettant la création d’une expérience d’intelligence artificielle (IA) plus organique et interactive.
Cette technologie révolutionnaire pourrait changer le visage des modèles texte-image, qui ont longtemps lutté avec le contexte linguistique. Dans un article explorant la compréhension relationnelle des modèles d’IA générative, les chercheurs ont découvert que ces modèles ne « comprenaient » pas les relations physiques de certains objets. Visual ChatGPT pourrait aider à surmonter cette limitation, ouvrant potentiellement la voie à de futurs développements en intelligence artificielle générale (AGI).
Vous pouvez consultez l’article de Microsoft sur Visual ChatGPT en utilisant le lien ici.
Comment fonctionne Visual ChatGPT ?
Comment fonctionne Visual ChatGPT ? Essentiellement, il intègre les capacités des modèles de base visuels tels que Stable Diffusion, ControlNet et BLIP avec la compréhension du langage de ChatGPT. Le “gestionnaire d’invites” agit comme une interface entre ChatGPT et les modèles visuelspermettant un traitement transparent de la sortie.
Cette intégration aide à surmonter les limites des deux plates-formes, ce qui donne une version beaucoup plus performante de ChatGPT qui ne repose pas sur des hallucinations, mais tire plutôt parti de la capacités des VFM via le gestionnaire d’invites.
Voici un diagramme sur le fonctionnement de Visual ChatGPT :
L’un des principaux avantages de Visual ChatGPT est qu’il permet de partager des images avec ChatGPT. Le prompt manager agit comme un « chef de cuisine », relayant les commandes et la nourriture entre le « serveur » (ChatGPT) et les « chefs » (VFM).
Le système comprend également un format de raisonnement, qui permet à ChatGPT de décider quand il doit utiliser un outil comme un VFM pour fournir la sortie nécessaire.
Comment utiliser Visual ChatGPT ?
Avant d’exécuter la démo Visual ChatGPT, vous devez suivre quelques étapes comme indiqué sur sa page GitHub. Voici ce que vous devez faire pour exécuter Visual ChatGPT :
Visual ChatGPT est un outil utile qui peut potentiellement réduire la courbe d’apprentissage des modèles texte-image et permettre aux programmes d’IA d’interagir les uns avec les autres. Les modèles précédents tels que les modèles LLM et T2I ont été développés isolément, mais avec des avancées innovantes, leurs performances peuvent être considérablement améliorées.
Il y a beaucoup d’anticipation pour la sortie de GPT-4, qui devrait exceller dans la production d’images avec ChatGPT. Cependant, la date de sortie de ce modèle très attendu est pour le moment inconnue.
De nouvelles opportunités d’emploi L’IA a été créée
Alors que le domaine de l’ingénierie rapide continue d’évoluer, Les chuchoteurs d’IA émergent comme une nouvelle catégorie d’emploi critique. Ces professionnels travaillent pour aider les modèles d’IA à « comprendre » le langage et le contexte humains, permettant ainsi un traitement plus efficace du langage naturel.
Le gestionnaire d’invites dans Visual ChatGPT représente une avancée significative dans ce domaine, simplifiant le processus de transmission des informations au modèle sans avoir besoin d’invites complexes. Par conséquent, des emplois tels que l’ingénierie rapide deviennent de plus en plus accessible pour les personnes intéressées par les technologies de l’IA.
Conclusion
Visual ChatGPT est un développement important dans le domaine de l’IA, avec le potentiel d’amplifier les capacités des modèles de pointe. En réunissant les points forts des LLM et des modèles T2I, il a le potentiel de réduire les barrières à l’entrée et d’ajouter l’interopérabilité à divers outils d’IA.
Bien qu’il reste encore beaucoup à apprendre sur les capacités de Visual ChatGPT et des technologies similaires, il représente une nouvelle frontière passionnante dans le domaine de l’intelligence artificielle.
Source: Visual ChatGPT est là pour faire évoluer les générateurs de texte en image