当 AI 爬虫违反规则:从 Cloudflare 与 Perplexity 的争端中学到的教训

Cloudflare 指责人工智能初创公司 Perplexity 绕过了数万个网站的抓取限制

网页爬虫已成为 AI 研究和产品开发的核心工具。然而,随着越来越多的网站使用 Robots.txt 和防火墙规则来限制爬虫访问,AI 公司也在不断创新数据收集方式。Cloudflare 近日公开指控 Perplexity 使用“隐身爬虫”技术,揭示了内容所有者与 AI 初创公司之间日益激烈的博弈。

DAVID YANG

发布于 Aug 5, 2025 • 4 分钟阅读

Cover Image

争端揭示了什么?

Cloudflare 的调查

Cloudflare 在客户投诉后展开调查,发现 Perplexity 的爬虫在被 Robots.txt 和 Web 应用防火墙明确禁止的情况下,仍能访问网站内容。为验证这一行为,Cloudflare 创建了几个私有测试域名,并设置禁止所有爬虫访问的规则,结果发现 Perplexity 的爬虫仍在尝试抓取这些网站。

Perplexity 的“隐身”策略

Cloudflare 的研究揭示了 Perplexity 使用的多种规避技术:

  • 伪装 User-Agent:当 “PerplexityBot” 被封锁时,爬虫伪装成 macOS 上的 Chrome 浏览器

  • 轮换 IP 地址:使用未公开的 IP 地址,绕过基于 IP 的封锁

  • 切换 ASN 网络:更换自治系统编号,进一步隐藏爬虫来源

这些技术每天在数万个域名上生成数百万次请求,伪装成普通用户浏览行为。

对 AI 与网站生态的影响

道德与法律风险

Perplexity 被指无视网站的访问偏好,不仅违反了网络礼仪,也可能面临法律诉讼。像道琼斯和 BBC 等出版商已开始采取措施保护其内容不被 AI 擅自抓取。这场争端凸显了 AI 对数据的渴求与传统知识产权之间的冲突。

技术对抗升级

网站运营者不得不部署更复杂的防御机制。传统的 Robots.txt 已无法应对高级爬虫技术。随着 AI 公司使用 IP 轮换和 UA 伪装,网站必须依赖行为指纹识别和机器学习驱动的爬虫检测技术来维护控制权。

我们学到了什么?

  • 忽视 Robots.txt → 应在网络边缘使用 WAF 和 CAPTCHA 强制执行爬虫策略

  • User-Agent 伪装 → 分析请求头和 JavaScript 执行行为,验证真实浏览器

  • IP 轮换 → 使用速率限制和 IP 信誉评分机制

  • ASN 切换 → 监控 ASN 变化,识别异常流量模式

倡导负责任的 AI 爬虫行为

  1. 采用透明的爬虫身份,公开 User-Agent 和 IP 范围

  2. 严格遵守 Robots.txt 指令

  3. 实施速率限制,避免对网站造成负担

  4. 尽可能建立数据合作关系,获得授权而非偷偷抓取

  5. 保留完整的爬虫行为审计记录,确保合规性

结语

Cloudflare 对 Perplexity 的揭露为网站运营者和 AI 公司敲响了警钟。网站必须升级防御机制,而 AI 公司也应重新审视其数据收集方式,回归透明与道德的原则。未来,基础设施提供商、内容出版商与 AI 企业之间的协作将是实现开放数据访问与尊重数字产权之间平衡的关键。

延伸阅读与下一步建议

  • 阅读 Cloudflare 的原始博客,了解详细技术分析

  • 探讨 AI 数据抓取的法律责任与边界

  • 尝试开源爬虫检测工具,提升网站防护能力

通过这些教训,我们可以引导网络走向一个创新与诚信并存的未来。