Gemini API 支持抓取 URL

  谷歌宣布其 Gemini API 中的 URL Context 工具已正式支持直接抓取 URL 内容,无需额外脚本或中间步骤。

  Gemini API 提供了 URL Context 功能,允许你在请求中直接嵌入网页链接,模型会自动访问并解析网页内容。支持的内容类型包括:

  • 文本网页(HTML、JSON、TXT 等)
  • PDF 文件
  • 图片(PNG、JPEG、WebP 等)

  不支持的内容:YouTube 视频、Google Docs、付费墙内容等。

  ✅ 使用示例(Python SDK)

from google import genai
from google.genai import types

client = genai.Client ()

response = client.models.generate_content (
  model="gemini-2.5-flash",
  contents=[
      "总结这篇文章的内容:",
      types.Part.from_uri (
        uri="https://example.com/article",
        mime_type='text/html'
      )
  ]
)
print (response.text)

  使用限制

  • 每次最多支持 20 个 URL
  • 单个 URL 内容大小上限为 34MB
  • 抓取内容会计入 输入 Tokens 费用

  如果你使用 Gemini CLI,也可以通过 web_fetch 工具快速抓取网页,例如:

gemini-cli web-fetch --prompt "总结 https://example.com/article 的主要内容"

  该工具会自动识别提示中的 URL 并调用 Gemini API 抓取内容。

  如你正在开发基于 Gemini 的应用,URL Context 功能已足够替代传统的爬虫或 HTML 解析器,大幅提升开发效率。

  相关链接

  https://ai.google.dev/gemini-api/docs/url-context

  https://colab.sandbox.google.com/github/google-gemini/cookbook/blob/main/quickstarts/Grounding.ipynb#url-context