阅读时间约 5 分钟

多模态输入

Karma One 支持多种输入方式,远不止打字这一种。文字、语音、图片、文件——用你最方便的方式与 AI 交流。

输入框功能一览

输入框是你与 AI 交互的起点。先来认识一下它的各个组成部分:

┌─────────────────────────────────────────────┐
│  [+]  输入框文字区域              [🎤] [➤]  │
└─────────────────────────────────────────────┘
  │                                  │    │
  │                                  │    └── 发送按钮
  │                                  └── 麦克风(语音输入)
  └── 附件菜单(图片/文件/拍照)

| 按钮 | 功能 | |------|------| | +(附件) | 打开附件菜单:拍照、选择图片、上传文件 | | 麦克风 | 按住说话,松开发送语音 | | 发送 | 发送当前输入框的内容 |

文字输入

基础文字输入

在输入框中直接打字即可。按「发送」按钮或回车键发送消息。

Markdown 支持

Karma One 的输入框支持 Markdown 格式。你可以使用以下语法让消息更有结构:

| 语法 | 效果 | 示例 | |------|------|------| | **粗体** | 粗体文字 | **重要信息** | | *斜体* | 斜体文字 | *注意* | | `代码` | 行内代码 | `console.log()` | | ```代码块``` | 多行代码块 | 粘贴代码时使用 | | - 列表项 | 无序列表 | - 第一点 | | 1. 列表项 | 有序列表 | 1. 步骤一 |

提示:AI 的回复也使用 Markdown 渲染,所以你会看到格式化的回答,包括标题、表格、代码高亮等。

快捷键(桌面端)

| 快捷键 | 功能 | |--------|------| | Enter | 发送消息 | | Shift + Enter | 换行(不发送) | | Ctrl/Cmd + V | 粘贴文字或图片 | | Ctrl/Cmd + Z | 撤销输入 |

长文本输入

输入框会自动扩展高度以适应长文本。你可以放心地粘贴大段内容,比如:

  • 需要分析的文章全文
  • 需要翻译的长段落
  • 需要审查的代码片段

语音输入

语音输入让你解放双手,直接「说」给 AI 听。

使用方法

  1. 点击输入框右侧的麦克风图标
  2. 开始说话
  3. 说完后松开按钮
  4. 系统自动将语音转为文字
  5. 文字出现在输入框中,确认后发送

支持的语言

语音输入支持多种语言的自动识别:

| 语言 | 识别质量 | |------|---------| | 中文(普通话) | 优秀 | | 英文 | 优秀 | | 日文 | 良好 | | 韩文 | 良好 | | 法文 | 良好 | | 德文 | 良好 | | 西班牙文 | 良好 |

系统会自动检测你说的是哪种语言,无需手动切换。你甚至可以在一段话中混合使用中英文,系统也能正确识别。

语音输入技巧

技巧一:在安静环境中使用效果更好

背景噪音会影响识别准确率。如果你在嘈杂环境中,建议使用耳机的麦克风。

技巧二:说话速度适中

不需要刻意放慢或加快语速,以你正常说话的速度即可。

技巧三:表达完整的句子

好的表达:「帮我把这段英文翻译成中文,语气要正式一些」
不好的表达:「翻译……中文……正式」

技巧四:语音配合文字

你可以先用语音输入主要内容,然后在输入框中手动编辑细节,再发送。

拍照和图片上传

相机直拍

直接用手机拍照发给 AI 分析:

  1. 点击 + 按钮
  2. 选择「拍照」
  3. 拍摄你想让 AI 分析的内容
  4. 确认照片
  5. 在输入框中添加你的问题(可选)
  6. 发送

适合直拍的场景

| 场景 | 示例提问 | |------|---------| | 识别物品 | 「这是什么植物?」 | | 拍菜单翻译 | 「帮我翻译这个菜单」 | | 拍题解答 | 「帮我解这道数学题」 | | 拍文档录入 | 「帮我把这段文字录入成电子版」 | | 拍产品比价 | 「这个产品在网上大概什么价格?」 |

从相册选择

上传手机相册中的现有图片:

  1. 点击 + 按钮
  2. 选择「从相册选择」
  3. 选择一张或多张图片
  4. 添加你的问题
  5. 发送

AI 图片理解能力

Karma One 的图片理解非常强大,能够:

  • 识别物体:告诉你图片中有什么东西
  • 阅读文字:识别图片中的文字内容(OCR)
  • 理解场景:描述图片的整体场景和氛围
  • 分析图表:解读数据图表、流程图
  • 对比图片:比较多张图片的差异
  • 理解截图:分析 UI 截图、报错信息
  • 识别手写:识别手写文字和公式

图片 + 提问的最佳实践

不好的方式:

[上传图片]
(不附带任何文字)

好的方式:

[上传图片]
这张图表显示的是我们上季度的销售数据,请帮我分析:
1. 整体趋势如何?
2. 哪个月表现最好?
3. 有没有异常波动?

提示:图片理解推荐使用 Gemini 2.5 Pro 模型,它在多模态任务上的表现最好。

文件上传

支持的文件类型

| 类型 | 支持格式 | 说明 | |------|---------|------| | 文档 | PDF, DOC, DOCX | 合同、报告、论文等 | | 演示文稿 | PPT, PPTX | 培训材料、演示文件 | | 表格 | XLS, XLSX, CSV | 数据表、财务报表 | | 文本 | TXT, MD | 纯文本和 Markdown | | 数据 | JSON, JSONL | 结构化数据 | | 代码 | 各类代码文件 | Python, JavaScript, Java 等 | | 图片 | PNG, JPG, GIF, WebP, SVG | 照片、截图、设计稿 | | 音频 | MP3, WAV, FLAC, AAC | 语音备忘、录音 | | 视频 | MP4, AVI, MOV, MKV | 视频分析 |

上传方法

方法一:通过附件按钮

  1. 点击 + 按钮
  2. 选择「上传文件」
  3. 从文件管理器中选择文件
  4. 等待上传完成
  5. 添加你的问题,发送

方法二:粘贴上传(桌面端)

直接使用 Ctrl/Cmd + V 粘贴剪贴板中的图片或文件。

方法三:拖拽上传(桌面端)

将文件从文件夹直接拖入对话窗口。

多文件同时上传

你可以一次上传多个文件:

  1. 在文件选择器中按住 Ctrl/Cmd 多选文件
  2. 或者先上传一个文件,再继续添加更多
  3. 所有文件就绪后,输入你的问题并发送

多文件使用场景

[上传:Q1销售数据.xlsx, Q2销售数据.xlsx, Q3销售数据.xlsx]
请对比这三个季度的销售数据,找出增长最快的产品线和下滑最明显的区域
[上传:合同A.pdf, 合同B.pdf]
请对比这两份合同的主要条款差异,特别关注付款条件和违约条款

文件处理流程

上传的文件会经过以下处理:

  1. 上传:文件传输到服务器
  2. 解析:提取文件中的文字、表格、图片等内容
  3. 分块:将长文档拆分为可处理的段落
  4. 就绪:AI 可以基于文件内容回答问题

你可以在上传界面看到实时的处理进度。

文件大小限制

| 方案 | 单文件大小限制 | 每次上传文件数 | |------|--------------|---------------| | 免费版 | 5 MB | 1 个 | | 入门版 | 20 MB | 3 个 | | 专业版 | 50 MB | 10 个 | | 团队版 | 100 MB | 20 个 | | 企业版 | 500 MB | 不限 |

输入方式组合

Karma One 支持在一条消息中组合多种输入方式:

文字 + 图片

最常用的组合。上传图片后在输入框中补充文字说明。

[一张产品照片]
请帮我写 3 个版本的小红书文案,分别面向学生、职场人、家庭用户

文字 + 文件

上传文档后提出具体问题。

[一份年报 PDF]
请总结这份年报的核心要点,特别关注营收增长和利润率变化

文字 + 多图

上传多张图片进行对比分析。

[产品旧版截图] [产品新版截图]
对比这两个版本的 UI 设计,列出主要变化点,并评估改进效果

语音 + 图片

先拍照,再用语音描述你的问题——这在手持物品时特别方便。

常见问题

Q: 上传的文件会被保存多久?

对话中上传的文件会在对话存续期间保留。你可以在后续消息中继续引用之前上传的文件内容。如果需要长期保存,建议将文件添加到分身的知识库中。

Q: 可以上传加密的 PDF 吗?

不支持。加密或有密码保护的 PDF 文件无法被解析。请先移除密码保护后再上传。

Q: 语音输入和 AI 语音对话有什么区别?

语音输入是将你的语音转为文字,然后 AI 以文字回复。AI 语音对话(通过 Telegram)则是你说话、AI 也用语音回复,更接近真人对话的体验。

Q: 上传的图片 AI 能记住吗?

在当前对话中,AI 可以引用之前上传的图片内容。但分身的长期记忆不会存储图片的原始数据,只会记住关于图片内容的文字描述。

Q: 能一边说话一边打字吗?

可以。你可以先用语音输入一段内容,转为文字后在输入框中继续编辑和补充,然后再发送。语音和文字是可以组合使用的。