亚马逊正在调查有关数据抓取滥用的指控

亚马逊云部门已对 Perplexity AI 展开调查。据《连线》报道，问题在于这家 AI 搜索初创公司是否违反了亚马逊网络服务规则，抓取了试图阻止其这样做的网站。

机器人排除协议是一项已有数十年历史的网络标准，涉及在域上放置纯文本文件（如 wired.com/robots.txt），以指示哪些页面不应被自动机器人和爬虫访问。虽然使用爬虫的公司可以选择忽略此协议，但大多数公司传统上都尊重它。亚马逊发言人告诉《连线》杂志，AWS 客户在爬取网站时必须遵守 robots.txt 标准。

该发言人在一份声明中表示：“AWS 的服务条款禁止客户使用我们的服务进行任何非法活动，我们的客户有责任遵守我们的条款和所有适用法律。”

与 Perplexity 相关的机器似乎正在对禁止机器人访问其内容的新闻网站进行大规模抓取。《卫报》、《福布斯》和《纽约时报》的发言人也表示，他们多次在其服务器上检测到该 IP 地址。

《连线》杂志将该 IP 地址追踪到 AWS 上托管的虚拟机，即弹性计算云 (EC2) 实例，在我们询问使用 AWS 基础设施抓取禁止访问的网站是否违反了该公司的服务条款后，AWS 启动了调查。

上周，Perplexity 首席执行官 Aravind Srinivas 首先回应了《连线》杂志的调查，称我们向公司提出的问题“反映了对 Perplexity 和互联网运作方式的深刻而根本的误解”。Srinivas 随后告诉 Fast Company WIRED 观察到的抓取 Condé Nast 网站和我们创建的测试网站的秘密 IP 地址是由一家提供网络抓取和索引服务的第三方公司运营的。他以保密协议为由拒绝透露该公司的名称。当被问及他是否会告诉第三方停止抓取 WIRED 时，斯里尼瓦斯回答说“这很复杂。”