Cloudflare指控Perplexity违规抓取数据，AI爬虫与内容保护的矛盾激化

近日，Cloudflare发布报告指控人工智能搜索公司Perplexity存在大规模违规抓取行为。报告指出，Perplexity在网站明确通过robots.txt文件禁止AI抓取的情况下，仍通过技术手段规避限制进行内容爬取。

报告显示，Perplexity采用多种方式绕过网站防护措施，包括：
1. 频繁更换用户代理（UA）和自治系统号（ASN）信息
2. 使用未声明的爬虫程序
3. 完全忽略robots.txt文件的限制性指令

据Cloudflare监测，这些行为涉及数万个域名，每天产生数百万次请求。值得注意的是，Perplexity甚至尝试访问Cloudflare专门设置的测试网站，这些网站不仅被robots.txt明确禁止，且未公开对外发布。

对此，Perplexity发言人Jesse Dwyer予以否认，称Cloudflare的报告是”销售噱头”，并表示截图证据”未显示任何内容被访问”。在后续声明中，Dwyer进一步否认涉事爬虫与公司有关。

这不是Perplexity首次面临此类指控。去年《Wired》等媒体曾指控其抄袭内容，而公司CEO Aravind Srinivas在公开场合回避相关质询。

作为应对措施，Cloudflare已将Perplexity移出认证机器人名单，并部署新技术拦截其爬虫活动。同时，Cloudflare近期推出新政策，允许网站所有者选择是否允许AI爬虫访问，并可通过”按次付费”模式设定内容使用价格。

业内人士指出，这一事件凸显了AI公司数据获取与网站内容保护之间的持续矛盾。随着AI技术发展，如何平衡创新需求与知识产权保护将成为行业面临的重要议题。

文章版权归作者所有，未经允许请勿转载。