La course à la suprématie de l’intelligence artificielle (IA) s’intensifie entre Gemini et ChatGPT, les géants de la technologie rivalisant pour développer les modèles d’IA les plus puissants et les plus polyvalents.
Suite à l’impressionnante révélation GPT-4o d’OpenAI, Google est entré dans la course à l’IA avec une démonstration captivante de son propre prototype pour son chatbot immensément populaire, Gemini.
Une vidéo de Le compte X de Google a présenté un téléphone Pixel exécutant Gemini analysant des images en direct, vraisemblablement filmées lors des préparatifs de la prochaine conférence des développeurs Google I/O.
La démo dévoile les prouesses conversationnelles de Gemini
Dans la vidéo présentée, via des invites vocales, l’utilisateur interroge l’IA sur l’activité à l’écran. La réponse de Gemini, prononcée d’une voix naturelle, démontre une compréhension du contexte visuel. Il identifie correctement la construction de la scène comme étant la préparation d’un grand événement. Lorsqu’on lui demande si des lettres apparaissent sur un écran, Gemini les reconnaît comme une signalisation pour Google I/O et propose une brève description de l’événement.
Semblable à la récente démonstration ChatGPT d’OpenAI, la vidéo Gemini de Google se distingue par le flux naturel de la conversation. L’interaction avec l’utilisateur semble presque humaine, les réponses de Gemini reflétant le rythme d’un dialogue amical.
Un jour de plus jusqu’à #GoogleIO! Nous nous sentons . Rendez-vous demain pour les dernières nouvelles sur l’IA, la recherche et bien plus encore. pic.twitter.com/QiS1G8GBf9
-Google (@Google) 13 mai 2024
Cette approche conversationnelle constitue un changement significatif par rapport aux interactions souvent guinchées rencontrées avec les modèles d’IA antérieurs. La possibilité de s’engager dans un échange aller-retour, de clarifier les informations et d’adapter les réponses en fonction des requêtes des utilisateurs, ouvre la voie à une expérience d’IA plus intuitive et conviviale.
Et il semble qu’une fois de plus l’innovation soit sur le point de naître de la concurrence : Gemini vs ChatGPT.
La conscience du contexte est la mine d’or ici
Alors que la démo se concentrait sur un scénario léger, les applications potentielles de Gemini s’étendent bien au-delà des fins de divertissement. La capacité d’analyser des informations visuelles en temps réel pourrait changer la donne dans divers domaines.
Imaginez un médecin utilisant Gemini lors d’une consultation avec un patient, où l’IA peut analyser instantanément des images médicales et fournir des informations ou des diagnostics potentiels. Dans le domaine éducatif, les étudiants pourraient utiliser Gemini pour améliorer leur expérience d’apprentissage en demandant à l’IA d’analyser des objets, des expériences ou des artefacts historiques en temps réel, favorisant ainsi une compréhension plus approfondie du sujet.
Le prototype est encore en construction et toutes ses capacités n’ont pas encore été pleinement révélées. Cependant, la démo offre un aperçu prometteur de l’avenir de l’interaction avec l’IA. En combinant le traitement du langage naturel avec l’analyse vidéo en temps réel, Gemini a le potentiel de changer et d’améliorer la façon dont nous interagissons avec l’information et le monde qui nous entoure, tout comme le GPT-4o d’OpenAI.
Alors quand aurons-nous plus de détails ? L’événement Google I/O va commencer ce soir à 10 h HP / 13 h HE alors restez à l’écoute et continuez à nous lire pour être témoin de l’avenir de la technologie.
Crédit image en vedette: Solen Feyissa/Unsplash
Source: Google Gemini se prépare à concurrencer GPT-4o