ClawWork:将 AI 助手变成可赚钱的同事

ClawWork:将 AI 助手变成可赚钱的同事

1. 什么是 ClawWork?

ClawWork 是一个 免费、开源框架,将 AI 助手转变为 经济驱动的同事。它不只是回答问题,而是完成 GDPVal 数据集(220 题,涵盖 44 个职业)中的 真实专业任务 并仅通过交付高质量结果赚取报酬。核心理念包括:

  • Token‑cost 计费 – 每个输入或输出 token 都会计价,代理必须为自身的 API 调用付费。
  • 收入驱动行为 – 代理决定 工作 还是 学习,以平衡即时现金流和未来能力。
  • 端到端基准 – 实际的报酬由系统支付,而非固定上限。质量由关联 BLS 工资率的 LLM 评分表评估。

最终得到一个轻量级、可部署的系统,展示 AI 如何成为 高效员工 而非被动聊天机器人。

2. 核心组件

层级 描述
任务引擎 加载 GDPVal 任务,分配给代理,跟踪完成情况和质量
经济追踪器 维护代理账户余额,记录 token 使用,并计算净值
评估引擎 使用 GPT‑5.2(或任意 LLM)根据行业特定评分表为输出打分
仪表盘 React 应用,实时可视化余额、收入、成本和任务状态
Nanobot / OpenClaw 集成 给任意直播 Nanobot 网关包裹 ClawMode 插件,向每条消息注入经济会计

3. ClawWork 的意义

  • 研究友好 – 研究人员可评估不同 LLM 在经济压力下处理专业工作的方法。
  • 教育价值 – 学生通过观察一个简易机器人产生的真实收益,学习经济学、AI 政策和软件架构。
  • 实用性 – 业务团队可原型低成本自治工人,用以校对报告、撰写摘要或进行数据分析。
  • 透明度 – 所有交易记录在 token_costs.jsonl 中,可审计 token 使用和 ROI。

4. 快速开始指南

下面是一个简洁的流程,帮助你在不到10分钟内启动本地 ClawWork 实例。

4.1 克隆并准备环境

# 1️⃣ 克隆仓库
git clone https://github.com/HKUDS/ClawWork.git
cd ClawWork

# 2️⃣ 创建 Python 3.10 虚拟环境(推荐 conda)
conda create -n clawwork python=3.10
conda activate clawwork
# 或使用 venv
python3.10 -m venv venv
source venv/bin/activate

# 3️⃣ 安装核心依赖
pip install -r requirements.txt

# 4️⃣ 安装前端
cd frontend && npm install && cd ..

4.2 配置 API 密钥

复制示例并填写凭据:

cp .env.example .env
# 在 .env 中编辑密钥:
# OPENAI_API_KEY=sk-...
# E2B_API_KEY=edb-...
# 可选:WEB_SEARCH_API_KEY

4.3 启动仪表盘

./start_dashboard.sh
# 后端 (FastAPI) + React (端口 3000) 启动完成。
访问 http://localhost:3000 以查看实时指标。

4.4 运行测试代理

./run_test_agent.sh
# 控制台将记录每一次迭代并显示收益。

4.5 与 Nanobot 集成(可选)

如果你已在运行 Nanobot 实例,按 clawmode_integration/README.md 指南开启 ClawMode 插件。此时 /clawwork 端点会按 token 价格计费每个回复,并可触发真实任务。

5. 理解收益与成本

  • Token‑Price 模型input_per_1moutput_per_1m 定义在 livebench/configs/...。默认可使用 OpenRouter 的实际计价。
  • 任务付款计算

    Payment = quality_score × (estimated_hours × BLS_hourly_wage)
    
    这意味着一个 10 小时、得分很高的项目可能支付 $2,500+。

  • 学习 vs 工作 – 代理可选择“学习”新技能,至少在记忆中存储 200 字符,以提升未来任务表现。此选择模拟了人类在时薪与技能培养之间的真实职业权衡。

6. 现实世界性能快照

使用 GPT‑4o 或 Qwen3‑Max 的顶级代理在基准测试中已获得 $1,500+/hr 等价值,超越了典型人类白领生产力。仪表盘可视化:

  • 生存天数(机器人保持盈利的时长)
  • 最终余额
  • 总工作收入与 token 成本对比
  • 跨行业的定性评分

这些指标帮助你评估 LLM 模型的 经济可行性,而非仅关注 token 使用或困惑度。

7. 扩展 ClawWork

  1. 新的任务来源 – 在 livebench/work/task_manager.py 中实现加载器。
  2. 自定义工具 – 在 livebench/tools/direct_tools.py 添加新的 @tool
  3. 新增评估评分表 – 在 eval/meta_prompts/ 放入 JSON。
  4. 其他 LLM 提供商 – 连接 LangChain 或 LiteLLM 后端。

模块化设计让你可以用最小的代码改动适配新数据集或业务规则。

8. 结束语

ClawWork 搭建了 AI 助手与真实生产力之间的桥梁。通过强制采用 token‑cost 计价和现实收益模型,它迫使 LLM 在质量、速度和成本之间进行平衡,就像人类工人一样。对开发者、研究者和企业而言,ClawWork 提供了一个沙盒,可在经济压力下测试自治 AI 代理,同时呈现可让投资者或利益相关者印象深刻的演示。

今天开始实验吧,把你的 AI 打造成 可赚取现金的同事——你将看到模型如何在 $10 余额中迅速转化为数千美元的收入流。

原创文章: 查看原文

分享本文