PDF 文件
PDF 文件理解适合合同摘要、报告问答、表格抽取、论文阅读和长文档结构化整理。推荐使用 Google 原生多模态接口,将 PDF 作为 inlineData 输入。
请求
POST __DOCS_API_ORIGIN__/v1beta/models/gemini-2.5-flash:generateContent
基础示例
curl __DOCS_API_ORIGIN__/v1beta/models/gemini-2.5-flash:generateContent \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-d '{
"contents": [
{
"role": "user",
"parts": [
{
"inlineData": {
"mimeType": "application/pdf",
"data": "BASE64_ENCODED_PDF"
}
},
{"text": "请总结这份 PDF 的核心结论,并列出 5 个关键事实。"}
]
}
]
}'
使用建议
| 场景 | 建议提示词 |
|---|---|
| 摘要 | “按背景、结论、风险、下一步行动总结这份文档。” |
| 抽取 | “抽取合同双方、金额、期限、付款节点,输出 JSON。” |
| 问答 | “只基于 PDF 内容回答,不确定时说明原文没有提到。” |
| 审阅 | “列出潜在矛盾、缺失条款和需要人工确认的地方。” |
警告
不要上传包含密钥、个人身份信息或客户隐私的 PDF,除非你的业务流程已经完成脱敏、授权和合规评估。
下一步
- 图像理解 - 理解截图、照片和图表
- Google 多模态 API 参考 - 查看
contents[].parts结构