Openai a déclenché une révolution technologique avec les débuts de Chatgpt en novembre 2022, et des millions d’utilisateurs incroyables dans le monde ont été étonnés par la capacité de son chatbot emblématique à s’engager dans des conversations humaines sur à peu près n’importe quel sujet qu’ils pourraient imaginer.
Il a lancé un engouement pour l’IA qui n’est devenu plus maniaque que de jour en jour, chaque entreprise technologique valant son sel qui cherche à se lancer dans l’acte avec ses propres modèles d’IA génératifs. Nous avons rapidement vu une réponse de Google et Meta avec leurs Gémeaux et des modèles de langage de Llama, et Microsoft, qui est déjà étroitement associé à OpenAI, a également pris de l’avant dans la construction de ses propres modèles.
Ajoutez à cela l’hôte des startups d’IA, allant d’Anthropic à Cohere aux laboratoires AI21 et maintenant Deepseek, et il est clair que l’industrie est devenue un libre-plus libre, avec des dizaines de joueurs concurrents qui se précipitaient pour encaisser le niveau fou de la fou de la demande d’outils d’IA de nouvelle génération.
Les modèles d’IA sont formés et construits à l’aide de grandes quantités de données, et ils ont besoin de quantités toujours croissantes pour s’améliorer. Pour obtenir ces données, la plupart des développeurs d’IA se rendent à la source la plus évidente de l’informatique – l’Internet public, où ils grattent librement des informations massives.
Ramper et gratter
Une chose que la plupart des gens ne réalisent pas, c’est qu’il n’y a pas d’endroit facile où vous pouvez aller pour «télécharger Internet». Ainsi, ce que font les développeurs d’IA, c’est reposer sur des outils appelés «robots Web», qui parcourent le World Wide Web, passant du lien vers le lien lorsqu’ils indexent toutes les informations qu’ils voient dans une base de données. Ensuite, ils utilisent des «gratteaux Web», qui passent par cette base de données et téléchargent toutes les informations auxquelles elle les conduit.
Les entreprises avec d’immenses ressources, comme Google et Microsoft, possèdent de l’argent et de l’expertise pour créer ces robots et scrasseurs Web eux-mêmes, et cette capacité leur donne probablement un avantage sur des rivaux qui ne le peuvent pas. Pour le reste, ils ont tendance à se tourner vers des ressources existantes telles que Common Crawl, qui est une organisation à but non lucratif qui explore le Web et les télécharge, compilant les informations dans une base de données massive et open source qui est mise à jour tous les quelques mois. Une autre ressource est le réseau ouvert d’intelligence artificielle à grande échelle, connu sous le nom de LAION, qui est plein de liens vers des images qu’il trouve sur le Web, et toutes les légendes publiées à leurs côtés.
En outre, d’autres organisations à but non lucratif sont intéressantes à promouvoir le développement de l’IA, comme l’Institut Allen pour l’IA. Il s’efforce de compiler des ensembles de données ouverts pour les développeurs de modèles de grande langue, tels que la base de données Dolma qui contient plus de trois billions de jetons de diverses pages Web, livres, codes, articles académiques et encyclopédies trouvés en ligne.
Les créateurs de contenu repoussent
Ces bases de données sont toutes créées par des robots et des grattoirs Web, mais il y a beaucoup de controverse sur cette pratique courante, car elle soulève des questions sur la précision et la fiabilité des modèles formés à l’aide de ces informations. Après tout, il y a beaucoup d’informations indésirables et de rumeurs et de ouï-dire publiés en ligne. Bien sûr, cela a également conduit à des différends concernant le droit d’auteur, de nombreux créateurs de contenu faisant valoir qu’ils devraient être indemnisés, étant donné que l’IA est perçue comme une menace pour leurs moyens de subsistance.
Certaines entreprises ont essayé de contourner cela en payant pour accéder aux données. Par exemple, Openai a accepté des organisations de presse telles qu’Axel Springer et le Forum Internet Reddit, payant pour accéder à leur contenu. D’autres, comme Meta, utilisent leurs propres données, comme les millions de publications publiques sur Facebook et Instagram, pour former leurs modèles. Elon Musk, le propriétaire de X, a déclaré que son entreprise fait de même pour former sa famille Grok de LLMS. Amazon a déclaré qu’il utiliserait des données vocales de clients qui conversent avec son assistant numérique Alexa.

Cependant, ces pratiques ne sont pas si populaires non plus, car de nombreux utilisateurs de médias sociaux sont assez mal à l’aise avec l’idée que leurs publications et commentaires sont utilisés pour former des modèles d’IA.
Il y a eu énormément de recul, mais les développeurs de l’IA ne peuvent pas étancher leur soif de données de plus en plus, étant donné que c’est la pierre angulaire de leurs algorithmes. En tant que tels, il y a des questions sur l’endroit où ils peuvent obtenir les informations dont ils ont besoin pour continuer à créer de nouvelles applications d’IA innovantes.
La synthèse des données peut être une solution
Une solution possible à cette question pourrait être des «données synthétiques», qui sont des informations générées artificiellement par des machines qui consomment d’abord d’énormes quantités de données réelles.
Si vous avez beaucoup de données du monde réel pour commencer, il est possible de créer autant d’informations synthétiques basées sur celle-ci que vous en aurez besoin, mais il y a des questions sur la qualité de ces informations artificielles. Après tout, tout provient de données réelles fabriquées par les humains, et si ces données source sont inexactes ou biaisées, les informations synthétiques qui en résultent amplifient probablement ces problèmes.
En conséquence, les informations les plus synthétiques utilisées pour former des modèles d’IA, plus leurs biais et inexactitudes deviendront, conduisant à plus de «hallucinations», qui se réfèrent aux cas où l’IA fait des erreurs ou crée simplement des faits à partir de l’air.
Si les données synthétiques doivent devenir une solution viable à la demande de la demande de données de formation, il est nécessaire de s’assurer qu’elle répond à une base de normes de qualité, ce qui ne sera possible que si une sorte d’entrée humaine demeure.
Stimuler la qualité des données avec la concurrence
C’est là que Fraction ai pourrait faire une différence. C’est le créateur d’un protocole unique basé sur la blockchain qui a transformé la tâche de générer des données synthétiques en un concours, où les développeurs humains créent des agents d’IA qui se disputent pour générer de nouveaux ensembles de données. En créant un agent d’IA réussi qui excelle dans la création de données synthétiques, les développeurs peuvent gagner des récompenses substantielles pour leur participation.
Fraction AI organise des compétitions régulières entre les agents d’IA, qui rivalisent pour créer les ensembles de données les plus précis et les plus fiables, selon les exigences spécifiques. Ils paient des frais en crypto-monnaie pour participer à ces compétitions, mais seuls les meilleurs interprètes sont récompensés, poussant les développeurs à créer de meilleurs agents d’IA.
Les constructeurs peuvent créer ces agents sans aucune compétence de codage, simplement en entrant des invites. Cette approche garantit qu’elle est accessible à quiconque.
En outre, Fraction AI s’appuie également sur des «Stakers», qui mettent les jetons de crypto-monnaie ETH pour sécuriser le réseau. Ils gagnent également des récompenses pour ce faire, grâce à une combinaison d’une part des frais de concurrence, des frais de protocole et des revenus qui découlent de la licence de ses ensembles de données synthétiques.
La chose ingénieuse à propos de la fraction IA est qu’elle introduit une approche complètement nouvelle de l’étiquetage des données qui devrait garantir qu’il produit des informations synthétiques de plus meilleure qualité. Traditionnellement, l’étiquetage des données a été fait uniquement par les humains, qui est précis mais beaucoup trop lent, soit par des modèles d’IA, qui sont beaucoup plus rapides mais moins précis.
La fraction AI permet aux humains de dire aux agents comment ils devraient étiqueter les données, de sorte que ces agents peuvent le faire plus précisément à des échelles beaucoup plus élevées. C’est une approche qui combine les avantages des deux méthodes, et il apporte de la valeur aux trois participants à l’écosystème.
Les constructeurs, ou créateurs des agents de l’IA, sont récompensés pour avoir créé des agents plus efficaces, ce qui garantit des données de meilleure qualité. Parce que seuls les meilleurs agents sont récompensés, ceux dont les agents perdent sont obligés d’améliorer leurs agents afin qu’ils puissent commencer à gagner. Les Stakers ont la possibilité de gagner un rendement régulier sur leurs investissements tout en soutenant la création de plus de données de formation. Enfin, les développeurs d’IA bénéficient d’un flux continu de nouvelles données synthétiques de haute qualité qui peuvent être utilisées pour former des modèles d’IA plus capables.
Le besoin pour les humains dans la boucle
C’est une nouvelle approche qui montre qu’elle a un réel potentiel. Déjà, la fraction AI a démontré sa capacité à modifier un petit LLM multimodal pour lui permettre de se produire à égalité avec le GPT-4 d’OpenAI, à une fraction du coût de ce modèle plus grand.
Le protocole démontre l’importance de garantir que les humains restent dans la boucle pendant le processus de création de données synthétiques. Les humains sont l’une des principales raisons du succès précoce de Chatgpt. Alors qu’il était en cours de développement, Openai a embauché des centaines de travailleurs pour expérimenter une première version de Chatgpt et fournir des commentaires, qui ont ensuite été utilisés pour améliorer ses performances. Cela a finalement eu un impact transformateur sur la qualité des réponses du chatbot, déclenchant la course folle de l’IA qui existe aujourd’hui.
À mesure que les modèles IA deviennent plus omniprésents et plus sophistiqués, le monde est à court de données fiables. Les données synthétiques, créées avec des humains dans la boucle, sont devenues les solutions les plus viables à ce problème, et son importance pour l’industrie de l’IA continuera de croître.
Crédit d’image en vedette: Maxim Berg/ /Désactiver
Les développeurs d’IA Post manquent de données. Où peuvent-ils en obtenir plus? est apparu en premier sur Techbriefly.
Source: Les développeurs d’IA sont à court de données. Où peuvent-ils en obtenir plus?





