Reddit 将更新网络标准以阻止自动网站抓取

社交媒体平台 Reddit 周二表示,将更新平台使用的网络标准,以阻止从其网站自动抓取数据,此前有报道称人工智能初创公司正在绕过该规则为其系统收集内容。

此举正值 人工智能公司被指控抄袭出版商的内容 创建人工智能摘要,无需注明来源或征求许可。

Reddit 表示将更新 Robots 排除协议(即“robots.txt”),这是一项被广泛接受的标准,用于确定网站哪些部分可以允许被抓取。

该公司还表示,将继续采用速率限制技术,即控制来自特定实体的请求数量,并将阻止未知机器人和爬虫在其网站上抓取数据(收集和保存原始信息)。

(如需了解当天的热门科技新闻, 订阅 关注我们的科技时事通讯《今日缓存》

最近,robots.txt 已成为出版商使用的关键工具,以防止科技公司免费使用其内容来训练人工智能算法并创建针对某些搜索查询的摘要。

上周,内容授权初创公司 TollBit 致出版商的一封信中表示,有几家人工智能公司正在绕过网络标准来抓取出版商网站的内容。

此前《连线》杂志的一项调查发现,人工智能搜索初创公司 Perplexity 很可能绕过了通过 robots.txt 阻止其网络爬虫的努力。

今年 6 月初,商业媒体出版商《福布斯》指控 Perplexity 剽窃其调查报道并将其用于生成式 AI 系统,且未给予署名。

Reddit 周二表示,研究人员和互联网档案馆等组织将继续可以非商业用途访问其内容。

2024-06-26 04:33:20
1719380500

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​