核心亮点
在 OSWorld 基准测试中,Mano-P 以 58.2% 的成功率超越了此前所有开源与商业方案(包括 OpenAI 的 operator-preview 和 Anthropic 的 Claude Computer Use),成为真正的 SOTA 视觉-语言-动作智能体。
技术架构
Mano-P 采用纯视觉驱动方案:不依赖任何 HTML/CFF 解析器,直接通过屏幕截图理解界面状态,再结合 VLM 生成下一步操作。整个流程无需 OCR、无需 DOM,直接看图操作,跟真人完全一样。
项目使用 Apache 2.0 开源许可,代码和模型均可免费商用。
在 Mac 上本地部署
Mano-P 支持 macOS Apple Silicon 本地推理,最低配置要求:
- Mac mini M4+ / MacBook M4+
- 32GB 统一内存
- macOS 14+
安装步骤
第一步,安装 CLI 工具:
brew install mininglamp-ai/tap/mano-cua
第二步,检查本地环境:
mano-cua check
第三步,安装本地 SDK 和模型:
mano-cua install-sdk
mano-cua install-model
第四步,运行第一个任务:
mano-cua run "打开微信,告诉 TA '会议延期'" --local --max-steps 20
性能对比
在 OSWorld 基准测试中,Mano-P 的表现超越了所有已知方案:
- Mano-P(视觉驱动):58.2%
- OpenAI Operator Preview:54.4%
- Anthropic Claude Computer Use:50.3%
- Previous SOTA:36.4%
相关资源
- GitHub 仓库
- ClawHub 下载
- HuggingFace 模型:Mininglamp-2718/Mano-P