L’équipe du projet de recherche européen EuroLLM auquel participe lelaboratoire MICS de CentraleSupélec (Université Paris-Saclay) aux côtés d’autres partenaires - Unbabel, l’Instituto Superior Técnico, l’Instituto de Telecomunicações, l’Université d’Édimbourg, Aveni, Equall, l’Université d’Amsterdam, Naver Labs et Sorbonne Université -, vient de publier unarticle de recherche détaillant les avancées obtenues avec EuroLLM-9B.
EuroLLM-9B est disponible en accès libre sur Hugging Face (pré-entraîné :utter-project/EuroLLM-9B ; modèle post-entraîné :utter-project/EuroLLM-9B-Instruct). Le modèle prend en charge les 24 langues officielles de l’Union européenne ainsi qu’un ensemble de 11 autres langues stratégiques et commercialement importantes, parmi lesquelles l’arabe, le catalan, le chinois, le galicien, l'hindi, le japonais, le coréen, le norvégien, le russe, le turc et l’ukrainien. Cette couverture linguistique étendue répond aux besoins de diversification linguistique de l’Union européenne et vise à réduire la dépendance à des modèles principalement centrés sur l’anglais. Les résultats sur les benchmarks multilingues montrent qu’il surpasse largement les autres modèles européens de taille équivalente et se montre compétitif face à des modèles non européens reconnus tels que Gemma-2-9B. Il est doté d’un tokenizer optimisé pour les langues européens et a été pré-entraîné sur près de 4.000 milliards de tokens, puis affiné progressivement en trois phases (pré-entraînement initial, phase d’annealing, puis phase d’annealing vers zéro). Cette approche progressive a permis d’améliorer sans cesse la qualité des données et de l’entraînement, pour aboutir à un modèle robuste et flexible.
Le projet a bénéficié de l’infrastructure de calcul européenne EuroHPC, et tout particulièrement de la puissance du supercalculateur MareNostrum5. L’entraînement a mobilisé environ 400 GPU Nvidia H100, grâce à un accès extrême-échelle obtenu dans le cadre d’EuroHPC, soutenu par la Commission européenne. EuroLLM-9B a fait l’objet d’un post-entraînement (instruction tuning) visant à le spécialiser dans le suivi d’instructions complexes, le dialogue multi-tour et l’adaptation à divers cas d’usage. Cette étape a été réalisée en recourant exclusivement à des jeux de données publics, garantissant à la fois transparence et reproductibilité. Les résultats sont particulièrement remarquables en traduction multilingue, où EuroLLM-9B surpasse des modèles de référence tels que Gemma-2-9B–IT ou Aya-expanse-8B.
Pour aller plus loin encore, l’équipe de recherche vient de se voir attribuer une bourse spécifique de 5 M€ de la part du consortium de supercalculateurs EuroHPC pour créer un modèle multimodal européen d'intelligence artificielle.