ClawWork:将 AI 助手变成可赚钱的同事
ClawWork:将 AI 助手变成可赚钱的同事
1. 什么是 ClawWork?
ClawWork 是一个 免费、开源框架,将 AI 助手转变为 经济驱动的同事。它不只是回答问题,而是完成 GDPVal 数据集(220 题,涵盖 44 个职业)中的 真实专业任务 并仅通过交付高质量结果赚取报酬。核心理念包括:
- Token‑cost 计费 – 每个输入或输出 token 都会计价,代理必须为自身的 API 调用付费。
- 收入驱动行为 – 代理决定 工作 还是 学习,以平衡即时现金流和未来能力。
- 端到端基准 – 实际的报酬由系统支付,而非固定上限。质量由关联 BLS 工资率的 LLM 评分表评估。
最终得到一个轻量级、可部署的系统,展示 AI 如何成为 高效员工 而非被动聊天机器人。
2. 核心组件
| 层级 | 描述 |
|---|---|
| 任务引擎 | 加载 GDPVal 任务,分配给代理,跟踪完成情况和质量 |
| 经济追踪器 | 维护代理账户余额,记录 token 使用,并计算净值 |
| 评估引擎 | 使用 GPT‑5.2(或任意 LLM)根据行业特定评分表为输出打分 |
| 仪表盘 | React 应用,实时可视化余额、收入、成本和任务状态 |
| Nanobot / OpenClaw 集成 | 给任意直播 Nanobot 网关包裹 ClawMode 插件,向每条消息注入经济会计 |
3. ClawWork 的意义
- 研究友好 – 研究人员可评估不同 LLM 在经济压力下处理专业工作的方法。
- 教育价值 – 学生通过观察一个简易机器人产生的真实收益,学习经济学、AI 政策和软件架构。
- 实用性 – 业务团队可原型低成本自治工人,用以校对报告、撰写摘要或进行数据分析。
- 透明度 – 所有交易记录在
token_costs.jsonl中,可审计 token 使用和 ROI。
4. 快速开始指南
下面是一个简洁的流程,帮助你在不到10分钟内启动本地 ClawWork 实例。
4.1 克隆并准备环境
# 1️⃣ 克隆仓库
git clone https://github.com/HKUDS/ClawWork.git
cd ClawWork
# 2️⃣ 创建 Python 3.10 虚拟环境(推荐 conda)
conda create -n clawwork python=3.10
conda activate clawwork
# 或使用 venv
python3.10 -m venv venv
source venv/bin/activate
# 3️⃣ 安装核心依赖
pip install -r requirements.txt
# 4️⃣ 安装前端
cd frontend && npm install && cd ..
4.2 配置 API 密钥
复制示例并填写凭据:
cp .env.example .env
# 在 .env 中编辑密钥:
# OPENAI_API_KEY=sk-...
# E2B_API_KEY=edb-...
# 可选:WEB_SEARCH_API_KEY
4.3 启动仪表盘
./start_dashboard.sh
# 后端 (FastAPI) + React (端口 3000) 启动完成。
4.4 运行测试代理
./run_test_agent.sh
# 控制台将记录每一次迭代并显示收益。
4.5 与 Nanobot 集成(可选)
如果你已在运行 Nanobot 实例,按 clawmode_integration/README.md 指南开启 ClawMode 插件。此时 /clawwork 端点会按 token 价格计费每个回复,并可触发真实任务。
5. 理解收益与成本
- Token‑Price 模型 –
input_per_1m与output_per_1m定义在livebench/configs/...。默认可使用 OpenRouter 的实际计价。 -
任务付款计算
这意味着一个 10 小时、得分很高的项目可能支付 $2,500+。Payment = quality_score × (estimated_hours × BLS_hourly_wage) -
学习 vs 工作 – 代理可选择“学习”新技能,至少在记忆中存储 200 字符,以提升未来任务表现。此选择模拟了人类在时薪与技能培养之间的真实职业权衡。
6. 现实世界性能快照
使用 GPT‑4o 或 Qwen3‑Max 的顶级代理在基准测试中已获得 $1,500+/hr 等价值,超越了典型人类白领生产力。仪表盘可视化:
- 生存天数(机器人保持盈利的时长)
- 最终余额
- 总工作收入与 token 成本对比
- 跨行业的定性评分
这些指标帮助你评估 LLM 模型的 经济可行性,而非仅关注 token 使用或困惑度。
7. 扩展 ClawWork
- 新的任务来源 – 在
livebench/work/task_manager.py中实现加载器。 - 自定义工具 – 在
livebench/tools/direct_tools.py添加新的@tool。 - 新增评估评分表 – 在
eval/meta_prompts/放入 JSON。 - 其他 LLM 提供商 – 连接 LangChain 或 LiteLLM 后端。
模块化设计让你可以用最小的代码改动适配新数据集或业务规则。
8. 结束语
ClawWork 搭建了 AI 助手与真实生产力之间的桥梁。通过强制采用 token‑cost 计价和现实收益模型,它迫使 LLM 在质量、速度和成本之间进行平衡,就像人类工人一样。对开发者、研究者和企业而言,ClawWork 提供了一个沙盒,可在经济压力下测试自治 AI 代理,同时呈现可让投资者或利益相关者印象深刻的演示。
今天开始实验吧,把你的 AI 打造成 可赚取现金的同事——你将看到模型如何在 $10 余额中迅速转化为数千美元的收入流。