通義千問:アリババのオープンソースAIエージェント

Alibaba、強力なオープンソースAIエージェント「Tongyi DeepResearch」を発表

Alibabaは、ディープな情報探索タスクに革命をもたらすように設計された、洗練されたオープンソースAIエージェント「Tongyi DeepResearch」をリリースしました。この最先端モデルは、合計305億のパラメータという膨大な規模を誇りながらも、トークンあたりわずか33億のパラメータしかアクティブにしない革新的なアプローチを採用し、パフォーマンスを損なうことなく効率を最適化しています。

Tongyi Labによって開発されたTongyi DeepResearchは、Humanity's Last Exam、BrowserComp、BrowserComp-ZH、WebWalkerQA、xbench-DeepSearch、FRAMES、SimpleQAなど、さまざまな困難なエージェンティック検索ベンチマークで最先端の結果を達成する卓越した能力を示しています。この野心的なプロジェクトは、Alibabaの以前のWebAgentイニシアチブの基盤の上に構築され、複雑なリサーチシナリオにおけるAIの可能性をさらに押し広げています。

主な特徴と革新性:

Tongyi DeepResearchは、いくつかの顕著な特徴で際立っています。

  • 自動合成データ生成: 高度にスケーラブルで完全に自動化されたパイプラインが合成データ生成に採用されています。これにより、高度なエージェンティック事前学習、教師ありファインチューニング、強化学習プロセスが可能になり、堅牢で適応性の高いモデルが保証されます。
  • 大規模継続事前学習: モデルは、多様で高品質なエージェンティックインタラクションデータを使用した、大規模な継続事前学習を受けます。このプロセスは、モデルの能力を強化し、知識を最新の状態に保ち、推論パフォーマンスを大幅に向上させます。
  • エンドツーエンド強化学習: Alibabaは、厳密なオンポリシー強化学習(RL)アプローチを利用しています。これには、カスタマイズされたグループ相対ポリシー最適化フレームワーク、トークンレベルのポリシー勾配、Leave-one-outアドバンテージ推定、およびネガティブサンプルの選択的フィルタリングが含まれ、動的な環境での安定したトレーニングを保証します。
  • 柔軟なエージェント推論パラダイム: 推論時、Tongyi DeepResearchは2つの主要なパラダイムをサポートします。
    • ReAct: モデルの固有の能力を厳密に評価するのに理想的です。
    • 反復リサーチ(「ヘビー」モード): テスト時のスケーリング戦略を採用し、モデルの最大のパフォーマンスポテンシャルを解き放ちます。

Tongyi DeepResearchの始め方:

このプロジェクトは、環境設定、依存関係のインストール、データ準備を含む、ユーザーが開始するための明確なパスを提供します。リポジトリには、推論スクリプトを構成するための指示が含まれており、ユーザーはモデルパス、データセット、および出力ディレクトリを指定できます。さまざまなツールに必要なAPIキーと認証情報は、提供されたシェルスクリプト内で構成できます。

モデルの入手可能性:

Tongyi-DeepResearch-30B-A3Bは、HuggingFaceおよびModelScope経由でダウンロード可能であり、最大128Kトークンのコンテキスト長をサポートしています。

コミュニティとリサーチ:

このプロジェクトは、Webエージェント、情報探索、エージェンティックRLの進歩を含む、関連する広範なリサーチファミリーも強調しています。リポジトリはコミュニティの貢献を奨励しており、リサーチインターンポジションの才能を積極的に募集しています。

Tongyi DeepResearchは、オープンソースAIにおけるディープリサーチへの大きな飛躍であり、複雑な情報探索課題に取り組むための強力なツールと堅牢なフレームワークを提供します。

この記事を共有