跳到主要内容

多模态概览

多模态能力用于在同一次任务中处理文本、图片、文件或视频。ClawdRouter 当前支持图片理解、图片生成、PDF 文件理解和 Veo 视频生成;不同能力对应不同协议和终结点。

能力选择

目标推荐入口说明
图片理解POST /v1beta/models/{model}:generateContent使用 Gemini 原生多模态,上传图片并提问
图片生成POST /v1/images/generationsPOST /v1beta/models/{model}:generateContentGPT 图片模型走 Images API;Gemini 图片模型走 Google 原生协议
PDF 文件理解POST /v1beta/models/{model}:generateContent将 PDF 作为 inlineData 输入,让模型总结、抽取或问答
视频生成POST /v1/video/generationsVeo 异步任务,提交后到任务中心下载结果
先区分“理解”和“生成”
  • 理解类任务通常把文件作为输入,让模型返回文本。
  • 生成类任务通常把文本或参考图作为输入,让模型返回图片、视频或异步任务。

协议差异

协议适合场景常见模型
OpenAI-compatible图片生成、统一聊天调用gpt-image-2gpt-image-1
Google 原生协议Gemini 图片理解、图片生成、PDF 文件理解gemini-2.5-flashgemini-2.5-flash-image
Video APIVeo 文生视频、图生视频veo-3.1-generate-001veo-3.1-fast-generate-001

设计建议

  • 多模态输入通常比纯文本消耗更多额度,请在业务侧限制文件大小和并发。
  • 上传图片或 PDF 时,确认 mimeType 与文件真实格式一致。
  • 图片生成和视频生成建议先用低成本参数试创意,再提高质量或分辨率。
  • 视频生成是异步任务,不要按同步接口设计前端等待。

下一步