L’assistant Gemini AI de Google prend désormais en charge le téléchargement de fichiers audio, permettant aux utilisateurs de transcrire, résumer et extraire les informations clés des enregistrements. Cette nouvelle fonctionnalité transforme jusqu’à 10 minutes de mémos vocaux, de réunions, de conférences et d’entretiens en documents consultables.

La capacité de téléchargement audio est disponible à la fois sur le Web et via les applications mobiles, accessibles via l’interface de téléchargement de fichiers standard. Selon Josh Woodward, vice-président de Gemini chez Google, la fonctionnalité de téléchargement de fichiers audio était la plus demandée par les utilisateurs.

Cette fonctionnalité diffère de Gemini Live, qui se concentre sur les commandes vocales en temps réel, tandis que la nouvelle fonctionnalité est conçue pour traiter les données des fichiers audio téléchargés. Au cours des tests, Gemini a transcrit avec précision des croquis d’albums de comédie et de conversations téléphoniques, avec seulement des erreurs mineures liées à la reconnaissance de nom. L’IA a également identifié efficacement les éléments et éléments clés adaptés à la création de listes de tâches.

L’ajout du traitement audio s’aligne sur les améliorations récentes de Gemini, notamment l’intégration d’applications, une interface visuelle basée sur une carte et des options de personnalisation étendues. Cette fonctionnalité permet aux utilisateurs de convertir les journaux audio et les mémos enregistrés en contenu consultable, rationalisant ainsi un processus qui nécessitait auparavant un logiciel de transcription externe.

Alors que d’autres assistants d’IA tels que ChatGPT (utilisant Whisper), Claude d’Anthropic et Perplexity offrent également des capacités de traitement audio, la mise en œuvre de Gemini est orientée vers les cas d’utilisation quotidienne. Les utilisateurs peuvent tirer parti de Gemini pour simplifier le langage, isoler les commentaires spécifiques à l’orateur, générer des questions et créer des guides d’étude à partir de contenu audio.

Cependant, la limite audio de 10 minutes et les plafonds d’utilisation quotidienne pour les utilisateurs du niveau gratuit peuvent restreindre la fréquence d’utilisation. Google n’a pas encore publié les tarifs officiels pour le traitement audio à gros volume, car il relève actuellement du quota Gemini habituel. Les utilisateurs prévoyant de traiter un contenu audio volumineux doivent gérer leur utilisation en conséquence.

Essentiellement, la nouvelle fonctionnalité audio de Gemini offre un moyen simplifié de traiter et d’extraire des informations précieuses à partir de fichiers audio, ce qui en fait un outil utile pour diverses applications personnelles et professionnelles.