NitroGen:面向游戏代理的开放式 AI 基础模型

引言

游戏长期以来一直是人工智能研究的实验场。从简单的基于规则的机器人到复杂的强化学习代理,开发者不断推动计算机在虚拟世界中所能做到的边界。NVIDIA 的 NitroGen 在此基础上更进一步:一个开放型基础模型,能够直接从像素输入玩多种电子游戏。

本文将探讨 NitroGen 的设计、训练数据和实际使用方法。无论你是研究人员、爱好者,还是对 AI 感兴趣的游戏开发者,都能在此找到一条清晰的路线图,帮助你在本地机器上快速部署 NitroGen。

NitroGen 是什么?

  • 开放源代码基础模型:代码和权重可在 GitHub 和 Hugging Face 上自由获取。
  • 通用游戏代理:NitroGen 并非针对单一游戏调优;它利用完全来自互联网的 海量视频动作游戏数据集 学习。
  • 行为克隆架构:模型通过复制产生记录游戏帧的动作来模仿人类玩法。
  • 像素到控制:输入为原始 RGB 像素;输出为适用于大多数 Windows 游戏的离散游戏手柄指令。

该项目的研究论文(Magne 等人,2026 年)详细阐述了数据集构建和模型架构。开源发布让社区能够在新游戏上适配、扩展和验证该模型。

训练与数据

NitroGen 在 超过 100 万 小时的公开视频游戏中训练。关键点: 1. 数据集规模 – 大规模对 通用模型 至关重要。多样化的游戏、摄像角度和玩家风格教会网络泛化。 2. 行为克隆 – 对每一帧,提取原始动作标签(如按钮按下)。模型学习映射 image → action。 3. 归一化与增强 – 原始帧被缩放到 84×84 并归一化。数据增强包括随机裁剪和亮度调整,以提升鲁棒性。

由于模型完全在互联网视频上训练,代码完全不包含受版权保护的游戏二进制文件。你只需在后续步骤提供可执行文件。

安装指南

以下是针对 Windows 个人电脑或 Linux 服务器的逐步操作。

1. 克隆仓库

git clone https://github.com/MineDojo/NitroGen.git
cd NitroGen

2. 创建 Python 环境

建议使用 Python ≥ 3.12(参见仓库的 pyproject.toml)。

python -m venv venv
source venv/bin/activate          # Windows: venv\\Scripts\\activate
pip install -e .                  # 安装依赖及本地包

3. 下载预训练检查点

检查点托管在 Hugging Face 的 nvidia/NitroGen 仓库。

hf download nvidia/NitroGen ng.pt
ng.pt 放至你喜欢的位置;服务器脚本会读取其路径。

4. 启动推理服务器

python scripts/serve.py <path_to_ng.pt>
服务器默认在端口 8000 上启动,并监听推理请求。

5. 玩游戏

你必须安装一个 Windows 游戏。使用任务管理器(Ctrl + Shift + Esc)→ 详细信息 → 右键 → 属性,找到精确的可执行文件名。

python scripts/play.py --process 'mygame.exe'
mygame.exe 换成实际的进程名。脚本捕获屏幕,将帧发送给推理服务器,并将预测结果转换为控制器输入。

小贴士:如果你的游戏使用 DirectX 11 或更高版本,NitroGen 的屏幕捕获功能表现良好。对于低帧率游戏,可考虑在 scripts/play.py 中提高捕获频率。

关键功能与限制

功能 描述
跨游戏 只要是 .exe,都能在任意 Windows 游戏上运行
Python API 简单的服务器‑客户端架构,可集成到自定义管道中
开源 没有闭源组件;研究代码受 MIT 许可证保护
无游戏二进制 你提供游戏文件;无版权冲突
仅 Windows 游戏需运行于 Windows;推理服务器可在 Linux 上执行
行为克隆限制 若游戏的动作集与训练数据不匹配,可能需微调

如何扩展 NitroGen

  1. 在新游戏上微调 – 收集目标游戏的一小批游戏视频,使用 train.py 脚本适配模型。
  2. 自定义动作空间 – 在训练配置中修改 action_space 定义,使其匹配新的控制器方案。
  3. 多 CPU / GPU – 服务器为单线程;可在负载均衡器后部署多实例以提升吞吐量。

详尽说明请参阅仓库的 docs/ 目录。

如何贡献

  • Bug 报告 – 在 GitHub 提 issue。
  • Pull Request – 代码改进、新训练脚本或额外演示脚本。请遵循 CONTRIBUTING.md 指南。
  • 社区讨论 – 加入 NVIDIA AI Research Slack 或 #nitrogen Discord 获得实时帮助。

总结

NitroGen 展示了单一基础模型即可在像素级处理多种游戏的能力。通过开源代码,NVIDIA 邀请研究者测试、扩展并混搭该技术。

无论你是测试行为克隆极限,还是需要一个现成代理用于游戏测试管线,NitroGen 都是一个稳固、文档齐全的起点。今天就克隆仓库,运行你的第一款游戏,加入关于开放游戏 AI 的讨论吧。祝玩得开心!


引用(学术用途):

@misc{magne2026nitrogen,
  title={NitroGen: An Open Foundation Model for Generalist Gaming Agents},
  author={Loïc Magne and Anas Awadalla and Guanzhi Wang and Yinzhen Xu and Joshua Belofsky and Fengyuan Hu and Joohwan Kim and Ludwig Schmidt and Georgia Gkioxari and Jan Kautz and Yisong Yue and Yejin Choi and Yuke Zhu and Linxi "Jim" Fan},
  year={2026},
  eprint={2601.02427},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2601.02427},
}

原创文章: 查看原文

分享本文