近日,Cloudflare发布报告指控人工智能搜索公司Perplexity存在大规模违规抓取行为。报告指出,Perplexity在网站明确通过robots.txt文件禁止AI抓取的情况下,仍通过技术手段规避限制进行内容爬取。
报告显示,Perplexity采用多种方式绕过网站防护措施,包括:
1. 频繁更换用户代理(UA)和自治系统号(ASN)信息
2. 使用未声明的爬虫程序
3. 完全忽略robots.txt文件的限制性指令
据Cloudflare监测,这些行为涉及数万个域名,每天产生数百万次请求。值得注意的是,Perplexity甚至尝试访问Cloudflare专门设置的测试网站,这些网站不仅被robots.txt明确禁止,且未公开对外发布。
对此,Perplexity发言人Jesse Dwyer予以否认,称Cloudflare的报告是”销售噱头”,并表示截图证据”未显示任何内容被访问”。在后续声明中,Dwyer进一步否认涉事爬虫与公司有关。
这不是Perplexity首次面临此类指控。去年《Wired》等媒体曾指控其抄袭内容,而公司CEO Aravind Srinivas在公开场合回避相关质询。
作为应对措施,Cloudflare已将Perplexity移出认证机器人名单,并部署新技术拦截其爬虫活动。同时,Cloudflare近期推出新政策,允许网站所有者选择是否允许AI爬虫访问,并可通过”按次付费”模式设定内容使用价格。
业内人士指出,这一事件凸显了AI公司数据获取与网站内容保护之间的持续矛盾。随着AI技术发展,如何平衡创新需求与知识产权保护将成为行业面临的重要议题。
© 版权声明
文章版权归作者所有,未经允许请勿转载。