告别手动点击！Agent-Browser：让 AI 真正拥有“操纵网页”的双手

如果 AI 能像人一样，直接打开浏览器、登录网站、点击按钮、甚至完成一次复杂的订票流程，那会是什么体验？

2026年3月4日·5 分钟阅读·👀 2·更新于 2026/3/4

在这个大模型横行的时代，我们已经习惯了让 AI 写代码、写文案。但你有没有想过，如果 AI 能像人一样，直接打开浏览器、登录网站、点击按钮、甚至完成一次复杂的订票流程，那会是什么体验？

今天给大家安利一个来自 Vercel Labs 的硬核开源项目：agent-browser。

简单来说，agent-browser 是一个让 AI 智能体（Agent）能够直接与浏览器交互的工具库。

传统的 AI 往往被困在对话框里，而它通过结合大语言模型（如 GPT-4）和浏览器自动化工具（如 Playwright），赋予了 AI “看”和“做”的能力。

为什么我们要关注这个项目？因为它解决了 AI 落地的一个核心痛点：“最后一公里”的执行力。

从“复读机”变“行动派”：以往 AI 只能告诉你“怎么做”，现在它能直接替你“把它做了”。
打破 API 孤岛：很多网站并没有开放 API，我们很难通过编程直接获取数据。但只要有网页，agent-browser 就能像人一样去抓取信息，极大地扩展了 AI 的能力边界。
极低的上手门槛：开发者不需要再写复杂的 Selenium 脚本或硬编码的选择器，你只需要用自然语言描述逻辑。

说实话，这类项目在目前还属于“前沿探索阶段”，但 agent-browser 的实用性已经在几个场景下发光发热了：

传统的自动化测试脚本维护起来简直是噩梦。有了它，你可以直接对 AI 说：“检查一下登录页面，看看验证码报错是否正常”，它会自动帮你跑一遍流程。

当你要跨好几个页面、处理各种弹窗才能拿到一份报表时，交给它最合适不过。

想象一下，你只需要输入一句话：“帮我在携程找一张下周五去上海最便宜的机票，并截图发给我”，然后你就可以去喝咖啡了。

友情提示：目前这类工具对 Token 的消耗和网页加载速度有一定要求，虽然还不能完全取代人类所有的浏览器操作，但作为辅助工具，它的潜力是巨大的。

agent-browser 让我们看到了未来的曙光：浏览器不再只是人类查看信息的窗口，而是 AI 办公的操作系统。 如果你也是一名开发者，或者对 AI Agent 感兴趣，强烈建议去他们的 GitHub 点个 Star 亲自体验一下。

点个赞

评测 Claude Code 插件 claude-mem，它能让 AI 在会话之间持久化上下文。包含两次实战排查问题和快速安装指南。

如果 AI 能像人一样，直接打开浏览器、登录网站、点击按钮、甚至完成一次复杂的订票流程，那会是什么体验？

两天半，我用 AI agents 搭了一个 Notion 博客系统

评论