阅读时间约 5 分钟

浏览器自动化

Karma One 集成了基于 Playwright 的浏览器自动化能力,可以像真人一样操控浏览器——访问网页、点击按钮、填写表单、截取屏幕、提取数据。这一切只需要你用自然语言描述需求。

功能概览

| 能力 | 说明 | |------|------| | 网页导航 | 打开任意URL,前进、后退、刷新 | | 页面截图 | 截取当前视口或整个页面的截图 | | 元素点击 | 点击按钮、链接、菜单等页面元素 | | 表单填写 | 在输入框中键入文字、选择下拉选项、勾选复选框 | | 内容提取 | 获取页面文本内容、可访问性快照 | | JavaScript 执行 | 在页面中运行自定义 JavaScript 代码 | | 多标签管理 | 打开、切换、关闭多个浏览器标签 | | 文件上传 | 通过文件选择器上传本地文件 | | 对话框处理 | 自动处理弹窗确认、取消、输入 | | 视频流分析 | 对网页中的视频内容进行实时分析 | | 键盘操作 | 模拟键盘按键和快捷键组合 | | 拖拽操作 | 将元素从一个位置拖动到另一个位置 |

核心工具

导航与截图

打开 https://example.com 然后截个图给我看看
帮我打开淘宝首页,搜索"机械键盘",然后截图给我看搜索结果

Karma One 使用可访问性快照(Accessibility Snapshot)来理解页面结构,这比截图更高效——它能识别每个按钮、链接、输入框的位置和含义。

表单填写与交互

帮我在这个注册页面填写以下信息:
姓名:张三
邮箱:zhangsan@example.com
然后点击"提交"按钮

支持的表单元素:

  • 文本输入框 — 普通文本、密码、搜索框
  • 下拉选择 — 单选和多选下拉菜单
  • 复选框和单选按钮 — 勾选或取消勾选
  • 滑块 — 拖动到指定值
  • 文件上传 — 选择本地文件上传

数据提取

打开这个产品页面,帮我提取所有商品的名称、价格和评分
帮我读取这个网页的主要内容,总结一下要点

提示:对于需要登录才能访问的网站,你可以先引导 Karma One 完成登录操作,然后再进行数据提取。

使用场景

竞品监控

帮我打开竞品的官网,截图记录他们的首页设计和定价页面

定期让 Karma One 访问竞品网站,截图对比产品变化、价格调整、新功能上线等信息。

数据采集

打开这个招聘网站,搜索"前端工程师",提取前20条职位的标题、公司、薪资范围

从公开网页中提取结构化数据,适合市场调研、价格监控、信息汇总等场景。

自动化测试

帮我测试一下这个网站的注册流程:
1. 点击"注册"按钮
2. 填写测试信息
3. 提交表单
4. 检查是否成功跳转

对 Web 应用进行端到端测试,验证关键流程是否正常运行。

网页内容分析

打开这篇文章,帮我读取全文内容并翻译成中文
帮我查看这个API文档页面,总结一下所有接口的请求方法和参数

视频流分析

Karma One 支持对网页中嵌入的视频进行分析。

打开这个YouTube视频页面,帮我分析视频中展示的产品特性

视频流分析的工作方式:

  1. 导航到视频页面
  2. 在不同时间点截取关键帧
  3. 通过视觉分析理解视频内容
  4. 生成内容摘要

性能分析

浏览器自动化还集成了性能追踪能力:

帮我测试一下这个网站的加载性能,给出Core Web Vitals评分

可以获取的性能指标:

  • LCP(最大内容渲染时间)
  • FCP(首次内容渲染时间)
  • CLS(累积布局偏移)
  • 网络请求瀑布图
  • JavaScript 执行时间

多标签操作

帮我同时打开这三个网站,然后对比它们的首页设计

你可以让 Karma One 管理多个标签页,在不同页面之间切换操作。

安全说明

  • 浏览器操作在沙箱环境中运行,与你的本地浏览器隔离
  • 不会自动保存任何密码或 Cookie
  • 敏感操作(如支付、删除)会先征得你的确认
  • 建议不要在浏览器自动化中输入真实的银行卡信息或重要密码
  • 网页截图可能包含个人信息,注意保护隐私

提示:浏览器自动化在沙箱模式(开发者模式)下效果最佳。如果你需要执行复杂的多步骤浏览器操作,建议开启开发者模式。

局限性

  • 某些网站有反自动化机制(如 CAPTCHA),可能无法完全自动操作
  • 需要 JavaScript 动态加载的内容可能需要等待页面渲染完成
  • 视频流分析基于关键帧截取,无法逐帧分析
  • 部分地区受限的网站可能无法访问