MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Nous Research 发布 Hermes Agent macOS 电脑控制功能:Token 消耗降低 95%,人机协同不受干扰

Nous Research 推出的开源 AI 助手 Hermes Agent 正式支持 macOS 后台电脑控制功能,借助开源驱动 cua-driver 实现不抢占用户鼠标和键盘焦点的自动化操作,并通过四层上下文压缩机制将 Token 消耗压低 95%。

References

Hermes Agent 横幅图
Hermes Agent 官方文档页面 Image source

Hermes Agent 登陆 macOS:后台电脑控制功能正式上线

Nous Research 旗下的开源 AI 助手 Hermes Agent 正式推出 macOS 电脑控制(Computer Use)功能,用户在后台运行 AI 自动化任务时,无需担心鼠标乱跳或窗口焦点被抢走。

对标 OpenAI Codex,主打开源替代方案

该功能在体验上直接对标了 OpenAI Codex 的「后台控制」特性,但 Hermes Agent 的方案完全基于开源组件构建。其底层接入了开源驱动 cua-driver,通过逆向苹果私有 API 向目标进程直接下发操作指令。该驱动通过 MCP 协议 over stdio 与 Hermes Agent 通信,支持 任意支持工具调用的模型,包括 Claude、GPT、Gemini 以及本地 vLLM 端点上的开源模型。

与大多数电脑控制方案不同,cua-driver 的设计目标是在后台静默运行——用户的鼠标不会移动、键盘焦点不会切换、macOS 的 Space 也不会自动跳转。这意味着 AI 可以在后台搜索邮件、编写代码或执行其他任务,而用户可以同时在前台进行其他工作,实现人机在同一台 Mac 上协同作业。

四重上下文压缩:Token 消耗骤降 95%

电脑控制功能重度依赖连续截图,Token 账单常常快速增长。为解决这一问题,Hermes Agent 在框架层面实现了四重上下文压缩机制:强制剔除冗余画面、仅让模型记忆最近 3 张截图,并配合服务端自动清理旧缓存。

根据官方测算,在 1568×900 分辨率下连续执行 20 步操作,上下文 Token 消耗可从约 60 万 Token 暴降至 3 万左右,降幅高达 95%,大幅降低了用户的使用成本。

安装与使用

用户可通过 hermes computer-use install 命令安装 cua-driver 二进制文件,或在 hermes tools 中启用 Computer Use 工具集。使用 hermes computer-use status 可验证安装状态。

Hermes Agent 采用 MIT 许可证开源,可通过官方安装脚本一键部署。在技能方面,该功能对应 skills/apple/macos-computer-use 路径,支持截图(capture)、鼠标点击(click)、双击(double_click)、文本输入(type)、滚动(scroll)和拖拽(drag)等操作。


来源:Hermes Agent 官方文档(2026年5月12日)