跳到主要内容

图像理解

图像理解适合识别图片内容、抽取截图信息、分析商品图、解释图表或对视觉内容进行问答。推荐使用 Google 原生多模态接口。

请求

POST __DOCS_API_ORIGIN__/v1beta/models/gemini-2.5-flash:generateContent

基础示例

curl __DOCS_API_ORIGIN__/v1beta/models/gemini-2.5-flash:generateContent \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-d '{
"contents": [
{
"role": "user",
"parts": [
{
"inlineData": {
"mimeType": "image/jpeg",
"data": "BASE64_ENCODED_IMAGE"
}
},
{"text": "请描述这张图片中的主要内容,并指出可能需要注意的细节。"}
]
}
]
}'

输入建议

项目建议
图片格式使用 image/pngimage/jpegimage/webp
图片质量避免模糊、过暗、过度压缩或包含大量无关背景
提问方式明确告诉模型要“描述、比较、抽取、判断还是输出结构化 JSON”
隐私信息上传截图前先遮挡敏感字段,例如密钥、邮箱、手机号和订单号

适合的提示词

请读取这张控制台截图,按 JSON 输出:页面名称、主要指标、异常提示、下一步排查建议。

下一步