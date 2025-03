La première version du Centre de recherche en IA donne de bons résultats en mathématiques et en raisonnement

TAIPEI, 11 mars 2025 /CNW/ - L'Institut de Recherche Hon Hai a annoncé aujourd'hui le lancement du premier grand modèle de langage (GML) en chinois traditionnel, marquant une nouvelle étape dans le développement de la technologie de l'IA à Taïwan grâce à une méthode d'entraînement de modèle plus efficace et à moindre coût, réalisée en seulement quatre semaines.

Fig. 1 : Résultats du comparatif TMMLU+ entre FoxBrain, Meta-Llama-3.1-70B et Taiwan-Llama-70B. (PRNewsfoto/Hon Hai Research Institute)

L'institut, soutenu par Hon Hai Technology Group (« Foxconn ») (TWSE:2317), le plus grand fabricant d'électronique au monde et l'un des principaux fournisseurs de solutions technologiques, a déclaré que le GML -- portant le nom de code FoxBrain -- sera mis en libre accès et partagé publiquement à l'avenir. À l'origine, il a été conçu pour des applications utilisées dans les systèmes internes du groupe, couvrant des fonctionnalités telles que l'analyse de données, l'aide à la décision, la collaboration documentaire, les mathématiques, le raisonnement et la résolution de problème ainsi que la génération de code.

FoxBrain affiche non seulement de puissantes capacités de compréhension et de raisonnement, mais il est également optimisé pour le style linguistique des utilisateurs taïwanais, avec d'excellentes performances dans les tests de mathématiques et de raisonnement logique.

« Ces derniers mois, l'approfondissement des capacités de raisonnement et l'efficacité de l'utilisation des processeurs graphiques sont progressivement devenus la norme du développement dans le domaine de l'IA. Notre modèle FoxBrain a adopté une stratégie d'entraînement très efficace qui se concentre sur l'optimisation du processus d'entraînement plutôt que sur l'accumulation aveugle de la puissance de traitement, a déclaré Yunh-Huin Li, directeur du Centre de recherche de l'intelligence artificielle à l'Institut de recherche Hon Hain. Grâce à des méthodes d'entraînement méticuleusement conçues et à une optimisation des ressources, nous sommes parvenus à construire un modèle d'IA local doté de puissantes capacités de raisonnement.

Le processus d'entraînement de FoxBrain a été propulsé par 120 processeurs graphiques NVIDIA H100, mis à l'échelle avec le réseau NVIDIA Quantum-2 InfiniBand, et a été achevé en environ quatre semaines. Par rapport aux modèles d'inférence récemment lancés sur le marché, ce modèle d'entraînement plus efficace et à moindre coût marque une nouvelle étape dans le développement de la technologie de l'IA à Taïwan.

FoxBrain s'appuie sur l'architecture Meta Llama 3.1 avec 70 milliards de paramètres. Dans la plupart des catégories de l'ensemble de données de test TMMLU+, il surpasse le Llama-3-Taiwan-70B de la même échelle, excellant particulièrement en mathématiques et en raisonnement logique (pour le comparatif entre TMMLU+ et FoxBrain, veuillez vous référer à la Fig. 1). Voici les spécifications techniques et les stratégies d'entraînement de FoxBrain :

Méthodes d'augmentation des données et évaluation de la qualité pour 24 catégories de sujets grâce à une technologie brevetée, générant 98 milliards de jetons de données de préentraînement de qualité pour le chinois traditionnel.

Longueur de la fenêtre contextuelle : 128 000 jetons

Utilisation de 120 processeurs graphiques NVIDIA H100 pour un coût de calcul total de 2 688 jours de processeurs graphiques

Utilisation d'une architecture d'entraînement parallèle multi-noeuds pour assurer un haut rendement et une stabilité optimale

Utilisation d'une technique de réflexion adaptative du raisonnement pour entraîner le modèle au raisonnement autonome

Dans les résultats des tests, FoxBrain a affiché des améliorations significatives en mathématiques par rapport au modèle de base Meta Llama 3.1. Il a réalisé des progrès importants dans les tests mathématiques par rapport à Taïwan Llama, qui est actuellement le meilleur grand modèle de langage en chinois traditionnel, et a surpassé les modèles actuels de Meta de la même catégorie en capacité de raisonnement mathématique. Bien qu'il y ait encore un léger écart avec le modèle de distillation de DeepSeek, ses performances sont déjà très proches des meilleures normes mondiales.

Le développement de FoxBrain -- de la collecte, du nettoyage et de l'augmentation des données au préentraînement continu, en passant par l'affinage supervisé, le RLHF et la réflexion adaptative du raisonnement -- a été réalisé progressivement grâce à la recherche indépendante, atteignant finalement des performances proches de celles des meilleurs modèles d'IA, malgré des ressources de calcul limitées. Ce grand modèle de langage illustre que les talents technologiques de Taïwan peuvent concurrencer leurs homologues internationaux dans le domaine des modèles d'IA.

Bien que FoxBrain ait été initialement conçu pour des applications internes au groupe, à l'avenir, ce dernier continuera de collaborer avec des partenaires technologiques pour étendre les applications de FoxBrain, partager ses informations en source ouverte et promouvoir l'IA dans la fabrication, la gestion de la chaîne d'approvisionnement et la prise de décisions intelligentes.

Pendant l'entraînement du modèle, NVIDIA a apporté son soutien avec le superordinateur Taipei-1 et en fournissant des conseils techniques, permettant ainsi à l'Institut de recherche Hon Hai de mener à bien le préentraînement du modèle avec NVIDIA NeMo. FoxBrain deviendra également un moteur important qui permettra de propulser la mise à niveau des trois grandes plateformes de Foxconn : Fabrication intelligente. Véhicules électriques intelligents. Ville intelligente.

Les résultats de FoxBrain seront partagés pour la première fois au cours d'une grande conférence lors d'une session de la GTC NVIDIA 2025 intitulée : « From Open Source to Frontier AI: Build, Customize, and Extend Foundation Models » (De la source ouverte à l'IA de pointe : construire, personnaliser et étendre les modèles de base) le 20 mars.

