技术 · 2026年5月21日 0

Mano-P:纯视觉驱动的端侧 GUI 智能体,在 Mac 上实现私有 AI 自动化

核心亮点

在 OSWorld 基准测试中,Mano-P 以 58.2% 的成功率超越了此前所有开源与商业方案(包括 OpenAI 的 operator-preview 和 Anthropic 的 Claude Computer Use),成为真正的 SOTA 视觉-语言-动作智能体。

技术架构

Mano-P 采用纯视觉驱动方案:不依赖任何 HTML/CFF 解析器,直接通过屏幕截图理解界面状态,再结合 VLM 生成下一步操作。整个流程无需 OCR、无需 DOM,直接看图操作,跟真人完全一样。

项目使用 Apache 2.0 开源许可,代码和模型均可免费商用。

在 Mac 上本地部署

Mano-P 支持 macOS Apple Silicon 本地推理,最低配置要求:

  • Mac mini M4+ / MacBook M4+
  • 32GB 统一内存
  • macOS 14+

安装步骤

第一步,安装 CLI 工具:

brew install mininglamp-ai/tap/mano-cua

第二步,检查本地环境:

mano-cua check

第三步,安装本地 SDK 和模型:

mano-cua install-sdk
mano-cua install-model

第四步,运行第一个任务:

mano-cua run "打开微信,告诉 TA '会议延期'" --local --max-steps 20

性能对比

在 OSWorld 基准测试中,Mano-P 的表现超越了所有已知方案:

  • Mano-P(视觉驱动):58.2%
  • OpenAI Operator Preview:54.4%
  • Anthropic Claude Computer Use:50.3%
  • Previous SOTA:36.4%

相关资源