Mano-P：纯视觉驱动的端侧 GUI 智能体，在 Mac 上实现私有 AI 自动化

核心亮点

在 OSWorld 基准测试中，Mano-P 以 58.2% 的成功率超越了此前所有开源与商业方案（包括 OpenAI 的 operator-preview 和 Anthropic 的 Claude Computer Use），成为真正的 SOTA 视觉-语言-动作智能体。

Mano-P 采用纯视觉驱动方案：不依赖任何 HTML/CFF 解析器，直接通过屏幕截图理解界面状态，再结合 VLM 生成下一步操作。整个流程无需 OCR、无需 DOM，直接看图操作，跟真人完全一样。

项目使用 Apache 2.0 开源许可，代码和模型均可免费商用。

Mano-P 支持 macOS Apple Silicon 本地推理，最低配置要求：

第一步，安装 CLI 工具：

brew install mininglamp-ai/tap/mano-cua

第二步，检查本地环境：

mano-cua check

第三步，安装本地 SDK 和模型：

mano-cua install-sdk
mano-cua install-model

第四步，运行第一个任务：

mano-cua run "打开微信，告诉 TA '会议延期'" --local --max-steps 20

在 OSWorld 基准测试中，Mano-P 的表现超越了所有已知方案：