OpenAI a annoncé le développement d’un grand modèle de langage nommé GPT-Rosalind, spécifiquement formé aux flux de travail courants en biologie. Le modèle, nommé d’après la biologiste Rosalind Franklin, représente une approche spécialisée de l’analyse des données biologiques, le distinguant des modèles plus génériques généralement utilisés par les grandes entreprises technologiques.
Yunyun Wang, responsable des produits pour les sciences de la vie d’OpenAI, a déclaré que GPT-Rosalind surmonte des obstacles importants dans la recherche en biologie. Le premier défi découle des vastes ensembles de données produits par des décennies de séquençage du génome et de biochimie des protéines. Le deuxième défi concerne la spécialisation des nombreux sous-domaines de la biologie, chacun caractérisé par des techniques uniques et un jargon spécifique.
Par exemple, les généticiens peuvent rencontrer des difficultés à parcourir la vaste littérature neurobiologique relative à des gènes spécifiques actifs dans les cellules cérébrales. Wang a noté qu’OpenAI avait formé GPT-Rosalind sur 50 des flux de travail biologiques les plus courants et sur l’accès aux principales bases de données publiques d’informations biologiques.
Le modèle est équipé pour suggérer des voies biologiques potentielles et hiérarchiser les cibles médicamenteuses. “Nous connectons le génotype au phénotype via des voies et des mécanismes de régulation connus, en déduisant les propriétés structurelles ou fonctionnelles probables des protéines et en tirant réellement parti de cette compréhension mécaniste”, a déclaré Wang.








