AMD a présenté Intella, une famille de modèles de langage entièrement open source avec 3 milliards de paramètres, formés à partir de zéro sur les GPU AMD Instinct ™ MI300X. Les modèles démontrent des améliorations significatives par rapport aux modèles entièrement ouverts existants et visent à être compétitifs avec les modèles de poids ouverts de pointe.
AMD présente Intella: modèles de langue open source avec 3 milliards de paramètres
Intella est construite sur un modèle de transformateur autorégressif composé de 36 couches de décodeur et 32 têtes d’attention. Cette architecture prend en charge une longueur de séquence allant jusqu’à 4 096 jetons, permettant au modèle de traiter des contextes textuels étendus. La taille du vocabulaire est d’environ 50 000 jetons, gérés par le tokenizer Olmo.
La formation a utilisé des GPU AMD Instinct MI300X pour souligner l’intégration de la quinzation en matière de matériel d’AMD. Intella augmente les efforts des modèles AMD OLMO précédents de 1 milliard de milliards de dollars, passant de 64 GPU MI250 en utilisant 1,3 billion de jetons à 128 MI300X GPU et 4,15 billions de jetons pour Insella.
Le pipeline d’entraînement de l’AMD Intella consistait en quatre étapes, ce qui améliorait progressivement les capacités du modèle, de la compréhension générale du langage naturel à l’enseignement suivant et à l’alignement vers les préférences humaines. La première étape impliquait une formation sur 4,065 billions de jetons à partir de divers ensembles de données, notamment DCLM-Baseline et Dolma 1.7, tandis que la deuxième étape a incorporé 57,575 milliards de jetons supplémentaires à partir d’ensembles de données de haute qualité comme Dolmino-Mix-1124 et Smollm-Corpus.
Versions du modèle et détails de formation
Les modèles Intella publiés incluent:
- Intella-3b-stage1: Stade de pré-formation 1 avec 4,065 billions de jetons pour la compétence fondamentale du langage naturel.
- Intella-3B: Stade de pré-formation 2 avec 57,575 milliards de jetons supplémentaires pour améliorer les capacités de résolution de problèmes.
- Intella-3B-SFT: Ajusté supervisé (SFT) en utilisant 8,902 milliards de jetons sur trois époques pour améliorer les capacités de suivi des instructions.
- Instruct Intella-3B: Alignement pour les préférences humaines en utilisant 760 millions de jetons avec l’optimisation directe des préférences (DPO).
La méthodologie de formation a utilisé Flashattention-2, Torch Compile et BFLOAT16 MIXT-PROCISION FORMATION pour l’efficacité, ainsi que le parallélisme des données entièrement fragile avec un fragment hybride pour optimiser l’utilisation des ressources à travers un grand cluster.
Benchmarks de performance
Les modèles Intella surpassent les modèles entièrement ouverts existants d’une taille similaire. Le modèle final pré-formé, Intella-3B, mène les modèles pré-formés entièrement performants existants en moyenne de 8,08%, avec des améliorations notables dans les références telles que le défi ARC (+ 8,02%), l’arc facile (+ 3,51%) et le GSM8K (+ 48,98%).
Les modèles Intella-3B excellent dans divers repères standard, notamment MMLU et BBH, démontrant des performances compétitives importantes contre des modèles comme LLAMA-3.2-3B et GEMMA-2-2B. En termes de réglage des instructions, l’instruct Intella-3B montre un avance de score cohérent de 14,37% par rapport aux modèles à instructions les plus ouverts les plus ouverts les plus ouverts.
Les modèles ont été évalués à l’aide de tâches standard à partir d’Olmes, de Bench MT Fastchat et d’alpaga, avec des résultats indiquant de fortes performances par rapport aux modèles existants de pointe de pointe. Les modèles réglés par l’instruction ont réalisé des scores remarquables, rétrécissant les lacunes et présentant la compétitivité dans le paysage des modèles de langue.
Disponibilité open source
AMD a entièrement open source tous les artefacts liés aux modèles Intella, y compris les poids des modèles, les configurations de formation, les ensembles de données et le code, promouvant la collaboration et l’innovation au sein de la communauté d’IA. Les ressources sont disponibles via Visage étreint cartes modèles et Github référentiels.
Crédit d’image en vedette: Timothy Dykes / Unsplash
Le post AMD dévoile Intella: des modèles d’IA open-source qui rivalisent que Meta et Google sont apparus en premier sur Techbriefly.
Source: AMD dévoile Intella: modèles d’IA open-source qui rivalisent avec Meta et Google
