Tongyi DeepResearch: El agente de IA de código abierto de Alibaba

Presentamos Tongyi DeepResearch: El potentes Agente de IA de Código Abierto de Alibaba

Alibaba ha lanzado Tongyi DeepResearch, un sofisticado agente de IA de código abierto diseñado para revolucionar las tareas de búsqueda profunda de información. Este modelo de vanguardia cuenta con impresionantes 30.500 millones de parámetros totales, con un enfoque innovador que activa solo 3.300 millones de parámetros por token, optimizando la eficiencia sin comprometer el rendimiento.

Desarrollado por Tongyi Lab, Tongyi DeepResearch ha demostrado capacidades excepcionales, logrando resultados de vanguardia en una variedad de exigentes puntos de referencia de búsqueda de agentes. Estos incluyen Humanity's Last Exam, BrowserComp, BrowserComp-ZH, WebWalkerQA, xbench-DeepSearch, FRAMES y SimpleQA. Este ambicioso proyecto se basa en el trabajo fundacional de la iniciativa anterior WebAgent de Alibaba, ampliando aún más los límites de lo que la IA puede lograr en escenarios de investigación complejos.

Características e Innovaciones Clave:

Tongyi DeepResearch destaca por varias características notables:

  • Generación Automatizada de Datos Sintéticos: Se emplea un canal totalmente automático y altamente escalable para la generación de datos sintéticos. Esto potencia los procesos de preentrenamiento avanzado de agentes, ajuste fino supervisado y aprendizaje por refuerzo, asegurando un modelo robusto y adaptable.
  • Preentrenamiento Continuo a Gran Escala: El modelo se somete a un extenso preentrenamiento continuo utilizando datos diversos y de alta calidad de interacción de agentes. Este proceso mejora las capacidades del modelo, mantiene fresco su conocimiento y fortalece significativamente su rendimiento de razonamiento.
  • Aprendizaje por Refuerzo de Extremo a Extremo: Alibaba utiliza un enfoque estrictamente basado en políticas de Aprendizaje por Refuerzo (RL). Esto incluye un marco personalizado de Optimización de Políticas Relativas de Grupo, gradientes de política a nivel de token, estimación de ventaja "leave-one-out" y filtrado selectivo de muestras negativas para garantizar un entrenamiento estable en entornos dinámicos.
  • Paradigmas Flexibles de Inferencia de Agentes: En la inferencia, Tongyi DeepResearch admite dos paradigmas principales:
    • ReAct: Ideal para evaluar rigurosamente las capacidades intrínsecas del modelo.
    • Investigación Iterativa ('Modo Pesado'): Emplea una estrategia de escalado en tiempo de prueba para liberar el máximo potencial de rendimiento del modelo.

Primeros Pasos con Tongyi DeepResearch:

El proyecto proporciona una ruta clara para que los usuarios comiencen, incluyendo la configuración del entorno, la instalación de dependencias y la preparación de datos. El repositorio incluye instrucciones para configurar scripts de inferencia, permitiendo a los usuarios especificar rutas de modelos, conjuntos de datos y directorios de salida. Las claves API y las credenciales esenciales para varias herramientas se pueden configurar dentro de los scripts de shell proporcionados.

Disponibilidad del Modelo:

Tongyi-DeepResearch-30B-A3B está fácilmente disponible para su descarga a través de HuggingFace y ModelScope, admitiendo una longitud de contexto de hasta 128K tokens.

Comunidad e Investigación:

El proyecto también destaca una extensa familia de investigaciones relacionadas, incluidos avances en Web Agents, búsqueda de información y RL de agentes. El repositorio fomenta las contribuciones de la comunidad y busca activamente talento para puestos de pasante de investigación.

Tongyi DeepResearch representa un avance significativo en la IA de código abierto para la investigación profunda, ofreciendo potentes herramientas y un marco robusto para abordar desafíos complejos de búsqueda de información.

Artículo original: Ver original

Compartir este artículo