ClawWork：将 AI 助手变成可赚钱的同事

February 20, 2026

分类: 实用开源项目

标签:

Open Source AI coworker Economic AI Nanobot integration AI benchmark

ClawWork：将 AI 助手变成可赚钱的同事

1. 什么是 ClawWork？

ClawWork 是一个 免费、开源框架，将 AI 助手转变为 经济驱动的同事。它不只是回答问题，而是完成 GDPVal 数据集（220 题，涵盖 44 个职业）中的 真实专业任务 并仅通过交付高质量结果赚取报酬。核心理念包括：

Token‑cost 计费 – 每个输入或输出 token 都会计价，代理必须为自身的 API 调用付费。
收入驱动行为 – 代理决定工作还是学习，以平衡即时现金流和未来能力。
端到端基准 – 实际的报酬由系统支付，而非固定上限。质量由关联 BLS 工资率的 LLM 评分表评估。

最终得到一个轻量级、可部署的系统，展示 AI 如何成为 高效员工 而非被动聊天机器人。

2. 核心组件

层级	描述
任务引擎	加载 GDPVal 任务，分配给代理，跟踪完成情况和质量
经济追踪器	维护代理账户余额，记录 token 使用，并计算净值
评估引擎	使用 GPT‑5.2（或任意 LLM）根据行业特定评分表为输出打分
仪表盘	React 应用，实时可视化余额、收入、成本和任务状态
Nanobot / OpenClaw 集成	给任意直播 Nanobot 网关包裹 `ClawMode` 插件，向每条消息注入经济会计

3. ClawWork 的意义

研究友好 – 研究人员可评估不同 LLM 在经济压力下处理专业工作的方法。
教育价值 – 学生通过观察一个简易机器人产生的真实收益，学习经济学、AI 政策和软件架构。
实用性 – 业务团队可原型低成本自治工人，用以校对报告、撰写摘要或进行数据分析。
透明度 – 所有交易记录在 token_costs.jsonl 中，可审计 token 使用和 ROI。

4. 快速开始指南

下面是一个简洁的流程，帮助你在不到10分钟内启动本地 ClawWork 实例。

4.1 克隆并准备环境

# 1️⃣ 克隆仓库
git clone https://github.com/HKUDS/ClawWork.git
cd ClawWork

# 2️⃣ 创建 Python 3.10 虚拟环境（推荐 conda）
conda create -n clawwork python=3.10
conda activate clawwork
# 或使用 venv
python3.10 -m venv venv
source venv/bin/activate

# 3️⃣ 安装核心依赖
pip install -r requirements.txt

# 4️⃣ 安装前端
cd frontend && npm install && cd ..

4.2 配置 API 密钥

复制示例并填写凭据：

cp .env.example .env
# 在 .env 中编辑密钥：
# OPENAI_API_KEY=sk-...
# E2B_API_KEY=edb-...
# 可选：WEB_SEARCH_API_KEY

4.3 启动仪表盘

./start_dashboard.sh
# 后端 (FastAPI) + React (端口 3000) 启动完成。

访问 http://localhost:3000 以查看实时指标。

4.4 运行测试代理

./run_test_agent.sh
# 控制台将记录每一次迭代并显示收益。

4.5 与 Nanobot 集成（可选）

如果你已在运行 Nanobot 实例，按 clawmode_integration/README.md 指南开启 ClawMode 插件。此时 /clawwork 端点会按 token 价格计费每个回复，并可触发真实任务。

5. 理解收益与成本

Token‑Price 模型 – input_per_1m 与 output_per_1m 定义在 livebench/configs/...。默认可使用 OpenRouter 的实际计价。
任务付款计算
```
Payment = quality_score × (estimated_hours × BLS_hourly_wage)
```
这意味着一个 10 小时、得分很高的项目可能支付 $2,500+。
学习 vs 工作 – 代理可选择“学习”新技能，至少在记忆中存储 200 字符，以提升未来任务表现。此选择模拟了人类在时薪与技能培养之间的真实职业权衡。

6. 现实世界性能快照

使用 GPT‑4o 或 Qwen3‑Max 的顶级代理在基准测试中已获得 $1,500+/hr 等价值，超越了典型人类白领生产力。仪表盘可视化：

生存天数（机器人保持盈利的时长）
最终余额
总工作收入与 token 成本对比
跨行业的定性评分

这些指标帮助你评估 LLM 模型的 经济可行性，而非仅关注 token 使用或困惑度。

7. 扩展 ClawWork

新的任务来源 – 在 livebench/work/task_manager.py 中实现加载器。
自定义工具 – 在 livebench/tools/direct_tools.py 添加新的 @tool。
新增评估评分表 – 在 eval/meta_prompts/ 放入 JSON。
其他 LLM 提供商 – 连接 LangChain 或 LiteLLM 后端。

模块化设计让你可以用最小的代码改动适配新数据集或业务规则。

8. 结束语

ClawWork 搭建了 AI 助手与真实生产力之间的桥梁。通过强制采用 token‑cost 计价和现实收益模型，它迫使 LLM 在质量、速度和成本之间进行平衡，就像人类工人一样。对开发者、研究者和企业而言，ClawWork 提供了一个沙盒，可在经济压力下测试自治 AI 代理，同时呈现可让投资者或利益相关者印象深刻的演示。

今天开始实验吧，把你的 AI 打造成 可赚取现金的同事——你将看到模型如何在 $10 余额中迅速转化为数千美元的收入流。

原始文章: 查看原文

分享这篇文章