多模态输入
Karma One 支持多种输入方式,远不止打字这一种。文字、语音、图片、文件——用你最方便的方式与 AI 交流。
输入框功能一览
输入框是你与 AI 交互的起点。先来认识一下它的各个组成部分:
┌─────────────────────────────────────────────┐
│ [+] 输入框文字区域 [🎤] [➤] │
└─────────────────────────────────────────────┘
│ │ │
│ │ └── 发送按钮
│ └── 麦克风(语音输入)
└── 附件菜单(图片/文件/拍照)
| 按钮 | 功能 | |------|------| | +(附件) | 打开附件菜单:拍照、选择图片、上传文件 | | 麦克风 | 按住说话,松开发送语音 | | 发送 | 发送当前输入框的内容 |
文字输入
基础文字输入
在输入框中直接打字即可。按「发送」按钮或回车键发送消息。
Markdown 支持
Karma One 的输入框支持 Markdown 格式。你可以使用以下语法让消息更有结构:
| 语法 | 效果 | 示例 |
|------|------|------|
| **粗体** | 粗体文字 | **重要信息** |
| *斜体* | 斜体文字 | *注意* |
| `代码` | 行内代码 | `console.log()` |
| ```代码块``` | 多行代码块 | 粘贴代码时使用 |
| - 列表项 | 无序列表 | - 第一点 |
| 1. 列表项 | 有序列表 | 1. 步骤一 |
提示:AI 的回复也使用 Markdown 渲染,所以你会看到格式化的回答,包括标题、表格、代码高亮等。
快捷键(桌面端)
| 快捷键 | 功能 |
|--------|------|
| Enter | 发送消息 |
| Shift + Enter | 换行(不发送) |
| Ctrl/Cmd + V | 粘贴文字或图片 |
| Ctrl/Cmd + Z | 撤销输入 |
长文本输入
输入框会自动扩展高度以适应长文本。你可以放心地粘贴大段内容,比如:
- 需要分析的文章全文
- 需要翻译的长段落
- 需要审查的代码片段
语音输入
语音输入让你解放双手,直接「说」给 AI 听。
使用方法
- 点击输入框右侧的麦克风图标
- 开始说话
- 说完后松开按钮
- 系统自动将语音转为文字
- 文字出现在输入框中,确认后发送
支持的语言
语音输入支持多种语言的自动识别:
| 语言 | 识别质量 | |------|---------| | 中文(普通话) | 优秀 | | 英文 | 优秀 | | 日文 | 良好 | | 韩文 | 良好 | | 法文 | 良好 | | 德文 | 良好 | | 西班牙文 | 良好 |
系统会自动检测你说的是哪种语言,无需手动切换。你甚至可以在一段话中混合使用中英文,系统也能正确识别。
语音输入技巧
技巧一:在安静环境中使用效果更好
背景噪音会影响识别准确率。如果你在嘈杂环境中,建议使用耳机的麦克风。
技巧二:说话速度适中
不需要刻意放慢或加快语速,以你正常说话的速度即可。
技巧三:表达完整的句子
好的表达:「帮我把这段英文翻译成中文,语气要正式一些」
不好的表达:「翻译……中文……正式」
技巧四:语音配合文字
你可以先用语音输入主要内容,然后在输入框中手动编辑细节,再发送。
拍照和图片上传
相机直拍
直接用手机拍照发给 AI 分析:
- 点击 + 按钮
- 选择「拍照」
- 拍摄你想让 AI 分析的内容
- 确认照片
- 在输入框中添加你的问题(可选)
- 发送
适合直拍的场景:
| 场景 | 示例提问 | |------|---------| | 识别物品 | 「这是什么植物?」 | | 拍菜单翻译 | 「帮我翻译这个菜单」 | | 拍题解答 | 「帮我解这道数学题」 | | 拍文档录入 | 「帮我把这段文字录入成电子版」 | | 拍产品比价 | 「这个产品在网上大概什么价格?」 |
从相册选择
上传手机相册中的现有图片:
- 点击 + 按钮
- 选择「从相册选择」
- 选择一张或多张图片
- 添加你的问题
- 发送
AI 图片理解能力
Karma One 的图片理解非常强大,能够:
- 识别物体:告诉你图片中有什么东西
- 阅读文字:识别图片中的文字内容(OCR)
- 理解场景:描述图片的整体场景和氛围
- 分析图表:解读数据图表、流程图
- 对比图片:比较多张图片的差异
- 理解截图:分析 UI 截图、报错信息
- 识别手写:识别手写文字和公式
图片 + 提问的最佳实践:
不好的方式:
[上传图片]
(不附带任何文字)
好的方式:
[上传图片]
这张图表显示的是我们上季度的销售数据,请帮我分析:
1. 整体趋势如何?
2. 哪个月表现最好?
3. 有没有异常波动?
提示:图片理解推荐使用 Gemini 2.5 Pro 模型,它在多模态任务上的表现最好。
文件上传
支持的文件类型
| 类型 | 支持格式 | 说明 | |------|---------|------| | 文档 | PDF, DOC, DOCX | 合同、报告、论文等 | | 演示文稿 | PPT, PPTX | 培训材料、演示文件 | | 表格 | XLS, XLSX, CSV | 数据表、财务报表 | | 文本 | TXT, MD | 纯文本和 Markdown | | 数据 | JSON, JSONL | 结构化数据 | | 代码 | 各类代码文件 | Python, JavaScript, Java 等 | | 图片 | PNG, JPG, GIF, WebP, SVG | 照片、截图、设计稿 | | 音频 | MP3, WAV, FLAC, AAC | 语音备忘、录音 | | 视频 | MP4, AVI, MOV, MKV | 视频分析 |
上传方法
方法一:通过附件按钮
- 点击 + 按钮
- 选择「上传文件」
- 从文件管理器中选择文件
- 等待上传完成
- 添加你的问题,发送
方法二:粘贴上传(桌面端)
直接使用 Ctrl/Cmd + V 粘贴剪贴板中的图片或文件。
方法三:拖拽上传(桌面端)
将文件从文件夹直接拖入对话窗口。
多文件同时上传
你可以一次上传多个文件:
- 在文件选择器中按住
Ctrl/Cmd多选文件 - 或者先上传一个文件,再继续添加更多
- 所有文件就绪后,输入你的问题并发送
多文件使用场景:
[上传:Q1销售数据.xlsx, Q2销售数据.xlsx, Q3销售数据.xlsx]
请对比这三个季度的销售数据,找出增长最快的产品线和下滑最明显的区域
[上传:合同A.pdf, 合同B.pdf]
请对比这两份合同的主要条款差异,特别关注付款条件和违约条款
文件处理流程
上传的文件会经过以下处理:
- 上传:文件传输到服务器
- 解析:提取文件中的文字、表格、图片等内容
- 分块:将长文档拆分为可处理的段落
- 就绪:AI 可以基于文件内容回答问题
你可以在上传界面看到实时的处理进度。
文件大小限制
| 方案 | 单文件大小限制 | 每次上传文件数 | |------|--------------|---------------| | 免费版 | 5 MB | 1 个 | | 入门版 | 20 MB | 3 个 | | 专业版 | 50 MB | 10 个 | | 团队版 | 100 MB | 20 个 | | 企业版 | 500 MB | 不限 |
输入方式组合
Karma One 支持在一条消息中组合多种输入方式:
文字 + 图片
最常用的组合。上传图片后在输入框中补充文字说明。
[一张产品照片]
请帮我写 3 个版本的小红书文案,分别面向学生、职场人、家庭用户
文字 + 文件
上传文档后提出具体问题。
[一份年报 PDF]
请总结这份年报的核心要点,特别关注营收增长和利润率变化
文字 + 多图
上传多张图片进行对比分析。
[产品旧版截图] [产品新版截图]
对比这两个版本的 UI 设计,列出主要变化点,并评估改进效果
语音 + 图片
先拍照,再用语音描述你的问题——这在手持物品时特别方便。
常见问题
Q: 上传的文件会被保存多久?
对话中上传的文件会在对话存续期间保留。你可以在后续消息中继续引用之前上传的文件内容。如果需要长期保存,建议将文件添加到分身的知识库中。
Q: 可以上传加密的 PDF 吗?
不支持。加密或有密码保护的 PDF 文件无法被解析。请先移除密码保护后再上传。
Q: 语音输入和 AI 语音对话有什么区别?
语音输入是将你的语音转为文字,然后 AI 以文字回复。AI 语音对话(通过 Telegram)则是你说话、AI 也用语音回复,更接近真人对话的体验。
Q: 上传的图片 AI 能记住吗?
在当前对话中,AI 可以引用之前上传的图片内容。但分身的长期记忆不会存储图片的原始数据,只会记住关于图片内容的文字描述。
Q: 能一边说话一边打字吗?
可以。你可以先用语音输入一段内容,转为文字后在输入框中继续编辑和补充,然后再发送。语音和文字是可以组合使用的。