多模态输入

Karma One 支持多种输入方式，远不止打字这一种。文字、语音、图片、文件——用你最方便的方式与 AI 交流。

输入框功能一览

输入框是你与 AI 交互的起点。先来认识一下它的各个组成部分：

┌─────────────────────────────────────────────┐
│  [+]  输入框文字区域              [🎤] [➤]  │
└─────────────────────────────────────────────┘
  │                                  │    │
  │                                  │    └── 发送按钮
  │                                  └── 麦克风（语音输入）
  └── 附件菜单（图片/文件/拍照）

| 按钮 | 功能 | |------|------| | +（附件） | 打开附件菜单：拍照、选择图片、上传文件 | | 麦克风 | 按住说话，松开发送语音 | | 发送 | 发送当前输入框的内容 |

文字输入

基础文字输入

在输入框中直接打字即可。按「发送」按钮或回车键发送消息。

Markdown 支持

Karma One 的输入框支持 Markdown 格式。你可以使用以下语法让消息更有结构：

| 语法 | 效果 | 示例 | |------|------|------| | **粗体** | 粗体文字 | **重要信息** | | *斜体* | 斜体文字 | *注意* | | `代码` | 行内代码 | `console.log()` | | ```代码块``` | 多行代码块 | 粘贴代码时使用 | | - 列表项 | 无序列表 | - 第一点 | | 1. 列表项 | 有序列表 | 1. 步骤一 |

提示：AI 的回复也使用 Markdown 渲染，所以你会看到格式化的回答，包括标题、表格、代码高亮等。

快捷键（桌面端）

| 快捷键 | 功能 | |--------|------| | Enter | 发送消息 | | Shift + Enter | 换行（不发送） | | Ctrl/Cmd + V | 粘贴文字或图片 | | Ctrl/Cmd + Z | 撤销输入 |

长文本输入

输入框会自动扩展高度以适应长文本。你可以放心地粘贴大段内容，比如：

需要分析的文章全文
需要翻译的长段落
需要审查的代码片段

语音输入

语音输入让你解放双手，直接「说」给 AI 听。

使用方法

点击输入框右侧的麦克风图标
开始说话
说完后松开按钮
系统自动将语音转为文字
文字出现在输入框中，确认后发送

支持的语言

语音输入支持多种语言的自动识别：

| 语言 | 识别质量 | |------|---------| | 中文（普通话） | 优秀 | | 英文 | 优秀 | | 日文 | 良好 | | 韩文 | 良好 | | 法文 | 良好 | | 德文 | 良好 | | 西班牙文 | 良好 |

系统会自动检测你说的是哪种语言，无需手动切换。你甚至可以在一段话中混合使用中英文，系统也能正确识别。

语音输入技巧

技巧一：在安静环境中使用效果更好

背景噪音会影响识别准确率。如果你在嘈杂环境中，建议使用耳机的麦克风。

技巧二：说话速度适中

不需要刻意放慢或加快语速，以你正常说话的速度即可。

技巧三：表达完整的句子

好的表达：「帮我把这段英文翻译成中文，语气要正式一些」
不好的表达：「翻译……中文……正式」

技巧四：语音配合文字

你可以先用语音输入主要内容，然后在输入框中手动编辑细节，再发送。

拍照和图片上传

相机直拍

直接用手机拍照发给 AI 分析：

点击 + 按钮
选择「拍照」
拍摄你想让 AI 分析的内容
确认照片
在输入框中添加你的问题（可选）
发送

适合直拍的场景：

| 场景 | 示例提问 | |------|---------| | 识别物品 | 「这是什么植物？」 | | 拍菜单翻译 | 「帮我翻译这个菜单」 | | 拍题解答 | 「帮我解这道数学题」 | | 拍文档录入 | 「帮我把这段文字录入成电子版」 | | 拍产品比价 | 「这个产品在网上大概什么价格？」 |

从相册选择

上传手机相册中的现有图片：

点击 + 按钮
选择「从相册选择」
选择一张或多张图片
添加你的问题
发送

AI 图片理解能力

Karma One 的图片理解非常强大，能够：

识别物体：告诉你图片中有什么东西
阅读文字：识别图片中的文字内容（OCR）
理解场景：描述图片的整体场景和氛围
分析图表：解读数据图表、流程图
对比图片：比较多张图片的差异
理解截图：分析 UI 截图、报错信息
识别手写：识别手写文字和公式

图片 + 提问的最佳实践：

不好的方式：

[上传图片]
（不附带任何文字）

好的方式：

[上传图片]
这张图表显示的是我们上季度的销售数据，请帮我分析：
1. 整体趋势如何？
2. 哪个月表现最好？
3. 有没有异常波动？

提示：图片理解推荐使用 Gemini 2.5 Pro 模型，它在多模态任务上的表现最好。

文件上传

支持的文件类型

| 类型 | 支持格式 | 说明 | |------|---------|------| | 文档 | PDF, DOC, DOCX | 合同、报告、论文等 | | 演示文稿 | PPT, PPTX | 培训材料、演示文件 | | 表格 | XLS, XLSX, CSV | 数据表、财务报表 | | 文本 | TXT, MD | 纯文本和 Markdown | | 数据 | JSON, JSONL | 结构化数据 | | 代码 | 各类代码文件 | Python, JavaScript, Java 等 | | 图片 | PNG, JPG, GIF, WebP, SVG | 照片、截图、设计稿 | | 音频 | MP3, WAV, FLAC, AAC | 语音备忘、录音 | | 视频 | MP4, AVI, MOV, MKV | 视频分析 |

上传方法

方法一：通过附件按钮

点击 + 按钮
选择「上传文件」
从文件管理器中选择文件
等待上传完成
添加你的问题，发送

方法二：粘贴上传（桌面端）

直接使用 Ctrl/Cmd + V 粘贴剪贴板中的图片或文件。

方法三：拖拽上传（桌面端）

将文件从文件夹直接拖入对话窗口。

多文件同时上传

你可以一次上传多个文件：

在文件选择器中按住 Ctrl/Cmd 多选文件
或者先上传一个文件，再继续添加更多
所有文件就绪后，输入你的问题并发送

多文件使用场景：

[上传：Q1销售数据.xlsx, Q2销售数据.xlsx, Q3销售数据.xlsx]
请对比这三个季度的销售数据，找出增长最快的产品线和下滑最明显的区域

[上传：合同A.pdf, 合同B.pdf]
请对比这两份合同的主要条款差异，特别关注付款条件和违约条款

文件处理流程

上传的文件会经过以下处理：

上传：文件传输到服务器
解析：提取文件中的文字、表格、图片等内容
分块：将长文档拆分为可处理的段落
就绪：AI 可以基于文件内容回答问题

你可以在上传界面看到实时的处理进度。

文件大小限制

| 方案 | 单文件大小限制 | 每次上传文件数 | |------|--------------|---------------| | 免费版 | 5 MB | 1 个 | | 入门版 | 20 MB | 3 个 | | 专业版 | 50 MB | 10 个 | | 团队版 | 100 MB | 20 个 | | 企业版 | 500 MB | 不限 |

输入方式组合

Karma One 支持在一条消息中组合多种输入方式：

文字 + 图片

最常用的组合。上传图片后在输入框中补充文字说明。

[一张产品照片]
请帮我写 3 个版本的小红书文案，分别面向学生、职场人、家庭用户

文字 + 文件

上传文档后提出具体问题。

[一份年报 PDF]
请总结这份年报的核心要点，特别关注营收增长和利润率变化

文字 + 多图

上传多张图片进行对比分析。

[产品旧版截图] [产品新版截图]
对比这两个版本的 UI 设计，列出主要变化点，并评估改进效果

语音 + 图片

先拍照，再用语音描述你的问题——这在手持物品时特别方便。

常见问题

Q: 上传的文件会被保存多久？

对话中上传的文件会在对话存续期间保留。你可以在后续消息中继续引用之前上传的文件内容。如果需要长期保存，建议将文件添加到分身的知识库中。

Q: 可以上传加密的 PDF 吗？

不支持。加密或有密码保护的 PDF 文件无法被解析。请先移除密码保护后再上传。

Q: 语音输入和 AI 语音对话有什么区别？

语音输入是将你的语音转为文字，然后 AI 以文字回复。AI 语音对话（通过 Telegram）则是你说话、AI 也用语音回复，更接近真人对话的体验。

Q: 上传的图片 AI 能记住吗？

在当前对话中，AI 可以引用之前上传的图片内容。但分身的长期记忆不会存储图片的原始数据，只会记住关于图片内容的文字描述。

Q: 能一边说话一边打字吗？

可以。你可以先用语音输入一段内容，转为文字后在输入框中继续编辑和补充，然后再发送。语音和文字是可以组合使用的。