agent-browser初体验

凌晨测试了三个 agent-browser , 大致效果不错的.

贴两个长图,建议新开tab查看图片:

第一个是: GitHub - vercel-labs/agent-browser: Browser automation CLI for AI agents · GitHub

第二个是: GitHub - obra/superpowers: An agentic skills framework & software development methodology that works. · GitHub

第三个是: 论坛里搜索到的 hyper-agent-browser - AI Agent 专用的浏览器自动化 CLI 工具

这个就没截图了和第一个答案类似,看到能绕检测目前还没对这个深入体验

安装都不复杂, 如果按照建议难度, 第一个最通用和简单

测试的问题:

过程中最开始他们使用无头浏览器打开了网站,然后发现需要登陆,就切换展示窗口让我登录账号 , 最开始我告诉他手机号,让你给他点击发送按钮, 我再给他验证码,然后他说需要滑动验证 :rofl: 他搞不定

如果我让他给我发送二维码,是不是我直接扫码就行了 ? 当时没有想到 :laughing:

登录之后,就大致是上面长图的内容

相比较,我感觉会比web_fetch好,还能交互, 这些浏览器也支持导入 自己使用浏览器的auth信息,我觉得这风险太大,没测试

以上测试使用的模型是 kimi-k2.5 因为需要视觉

补一个dia 对话分析 1&2库的分析

3 个赞

为什么不试试playwright-cli?没有 playwright-cli 我不是很认可,playwright-cli + playwright mcp 基本没有操作不了的。:rofl:

还有就是 chrome 的原生 devtools。

这块没了解啊,我是昨天看 HN 2那个库发布的帖子, 所以体验了一下,又查了查类似的库.

这是在哪里使用的呢。。。

对话啊, skill ,当你说浏览器打开 某地址 ,他优先使用 浏览器了.

太长了