Tongyi DeepResearch : L'agent IA open source d'Alibaba
Découverte de Tongyi DeepResearch : l'agent IA puissant et open-source d'Alibaba
Alibaba a lancé Tongyi DeepResearch, un agent IA open-source sophistiqué conçu pour révolutionner les tâches de recherche d'informations approfondies. Ce modèle à la pointe de la technologie dispose d'un impressionnant total de 30,5 milliards de paramètres, avec une approche innovante qui n'active que 3,3 milliards de paramètres par token, optimisant ainsi l'efficacité sans compromettre les performances.
Développé par Tongyi Lab, Tongyi DeepResearch a démontré des capacités exceptionnelles, obtenant des résultats de pointe sur divers benchmarks de recherche agentique complexes. Parmi ceux-ci figurent Humanity's Last Exam, BrowserComp, BrowserComp-ZH, WebWalkerQA, xbench-DeepSearch, FRAMES et SimpleQA. Ce projet ambitieux s'appuie sur les travaux fondamentaux de la précédente initiative WebAgent d'Alibaba, repoussant ainsi les limites de ce que l'IA peut accomplir dans des scénarios de recherche complexes.
Caractéristiques et innovations clés :
Tongyi DeepResearch se distingue par plusieurs caractéristiques remarquables :
- Génération automatisée de données synthétiques : Un pipeline entièrement automatique, hautement évolutif, est employé pour la génération de données synthétiques. Cela permet des processus avancés de pré-entraînement agentique, de réglage fin supervisé et d'apprentissage par renforcement, garantissant ainsi un modèle robuste et adaptable.
- Pré-entraînement continu à grande échelle : Le modèle subit un pré-entraînement continu intensif à l'aide de données d'interaction agentique diverses et de haute qualité. Ce processus améliore les capacités du modèle, maintient ses connaissances à jour et renforce considérablement ses performances en matière de raisonnement.
- Apprentissage par renforcement de bout en bout : Alibaba utilise une approche d'apprentissage par renforcement (RL) strictement sur politique. Cela comprend un cadre personnalisé d'optimisation de politique relative de groupe, des gradients de politique au niveau du token, une estimation de l'avantage "leave-one-out" et un filtrage sélectif des échantillons négatifs pour garantir un entraînement stable dans des environnements dynamiques.
- Paradigmes d'inférence d'agents flexibles : Lors de l'inférence, Tongyi DeepResearch prend en charge deux paradigmes principaux :
- ReAct : Idéal pour évaluer rigoureusement les capacités intrinsèques du modèle.
- Recherche itérative (« Mode lourd ») : Utilise une stratégie de mise à l'échelle au moment du test pour libérer le potentiel de performance maximal du modèle.
Démarrage avec Tongyi DeepResearch :
Le projet offre une voie claire pour les utilisateurs, incluant la configuration de l'environnement, l'installation des dépendances et la préparation des données. Le dépôt contient des instructions pour la configuration des scripts d'inférence, permettant aux utilisateurs de spécifier les chemins du modèle, les ensembles de données et les répertoires de sortie. Les clés API et les informations d'identification essentielles pour divers outils peuvent être configurées dans les scripts shell fournis.
Disponibilité du modèle :
Tongyi-DeepResearch-30B-A3B est facilement disponible au téléchargement via HuggingFace et ModelScope, prenant en charge une longueur de contexte allant jusqu'à 128K tokens.
Communauté et recherche :
Le projet met également en avant une famille étendue de recherches connexes, y compris des avancées dans les agents Web, la recherche d'informations et l'apprentissage par renforcement agentique. Le dépôt encourage les contributions de la communauté et recherche activement des talents pour des postes de stagiaires en recherche.
Tongyi DeepResearch représente un bond en avant significatif dans l'IA open-source pour la recherche approfondie, offrant des outils puissants et un cadre robuste pour relever des défis complexes de recherche d'informations.