浏览器自动化
Karma One 集成了基于 Playwright 的浏览器自动化能力,可以像真人一样操控浏览器——访问网页、点击按钮、填写表单、截取屏幕、提取数据。这一切只需要你用自然语言描述需求。
功能概览
| 能力 | 说明 | |------|------| | 网页导航 | 打开任意URL,前进、后退、刷新 | | 页面截图 | 截取当前视口或整个页面的截图 | | 元素点击 | 点击按钮、链接、菜单等页面元素 | | 表单填写 | 在输入框中键入文字、选择下拉选项、勾选复选框 | | 内容提取 | 获取页面文本内容、可访问性快照 | | JavaScript 执行 | 在页面中运行自定义 JavaScript 代码 | | 多标签管理 | 打开、切换、关闭多个浏览器标签 | | 文件上传 | 通过文件选择器上传本地文件 | | 对话框处理 | 自动处理弹窗确认、取消、输入 | | 视频流分析 | 对网页中的视频内容进行实时分析 | | 键盘操作 | 模拟键盘按键和快捷键组合 | | 拖拽操作 | 将元素从一个位置拖动到另一个位置 |
核心工具
导航与截图
打开 https://example.com 然后截个图给我看看
帮我打开淘宝首页,搜索"机械键盘",然后截图给我看搜索结果
Karma One 使用可访问性快照(Accessibility Snapshot)来理解页面结构,这比截图更高效——它能识别每个按钮、链接、输入框的位置和含义。
表单填写与交互
帮我在这个注册页面填写以下信息:
姓名:张三
邮箱:zhangsan@example.com
然后点击"提交"按钮
支持的表单元素:
- 文本输入框 — 普通文本、密码、搜索框
- 下拉选择 — 单选和多选下拉菜单
- 复选框和单选按钮 — 勾选或取消勾选
- 滑块 — 拖动到指定值
- 文件上传 — 选择本地文件上传
数据提取
打开这个产品页面,帮我提取所有商品的名称、价格和评分
帮我读取这个网页的主要内容,总结一下要点
提示:对于需要登录才能访问的网站,你可以先引导 Karma One 完成登录操作,然后再进行数据提取。
使用场景
竞品监控
帮我打开竞品的官网,截图记录他们的首页设计和定价页面
定期让 Karma One 访问竞品网站,截图对比产品变化、价格调整、新功能上线等信息。
数据采集
打开这个招聘网站,搜索"前端工程师",提取前20条职位的标题、公司、薪资范围
从公开网页中提取结构化数据,适合市场调研、价格监控、信息汇总等场景。
自动化测试
帮我测试一下这个网站的注册流程:
1. 点击"注册"按钮
2. 填写测试信息
3. 提交表单
4. 检查是否成功跳转
对 Web 应用进行端到端测试,验证关键流程是否正常运行。
网页内容分析
打开这篇文章,帮我读取全文内容并翻译成中文
帮我查看这个API文档页面,总结一下所有接口的请求方法和参数
视频流分析
Karma One 支持对网页中嵌入的视频进行分析。
打开这个YouTube视频页面,帮我分析视频中展示的产品特性
视频流分析的工作方式:
- 导航到视频页面
- 在不同时间点截取关键帧
- 通过视觉分析理解视频内容
- 生成内容摘要
性能分析
浏览器自动化还集成了性能追踪能力:
帮我测试一下这个网站的加载性能,给出Core Web Vitals评分
可以获取的性能指标:
- LCP(最大内容渲染时间)
- FCP(首次内容渲染时间)
- CLS(累积布局偏移)
- 网络请求瀑布图
- JavaScript 执行时间
多标签操作
帮我同时打开这三个网站,然后对比它们的首页设计
你可以让 Karma One 管理多个标签页,在不同页面之间切换操作。
安全说明
- 浏览器操作在沙箱环境中运行,与你的本地浏览器隔离
- 不会自动保存任何密码或 Cookie
- 敏感操作(如支付、删除)会先征得你的确认
- 建议不要在浏览器自动化中输入真实的银行卡信息或重要密码
- 网页截图可能包含个人信息,注意保护隐私
提示:浏览器自动化在沙箱模式(开发者模式)下效果最佳。如果你需要执行复杂的多步骤浏览器操作,建议开启开发者模式。
局限性
- 某些网站有反自动化机制(如 CAPTCHA),可能无法完全自动操作
- 需要 JavaScript 动态加载的内容可能需要等待页面渲染完成
- 视频流分析基于关键帧截取,无法逐帧分析
- 部分地区受限的网站可能无法访问