欢迎光临
我们一直在努力

若使用Cloudflare最新的防AI抓爬功能则可能影响网站RSS显示(蓝点网不受影响)

近期 Cloudflare 为所有网站推出防止 AI 抓爬功能,该功能旨在避免未经授权的人工智能爬虫抓取网站内容用于训练模型,当然这也可以减低网站的负载避免影响到网站性能。

不过说来也比较搞笑,Cloudflare 的这项功能也是基于 AI 开发的,即 AI 会分析前来抓爬的爬虫信息和抓爬次数,当超过某个阈值后就会被 Cloudflare 拦截。

不幸的是这个功能也会影响到网站的 RSS 订阅输出,因为 RSS 阅读器 (在线版) 通常会定时抓取网站的 RSS 地址获取最新文章并呈现给用户。

这些 RSS 阅读器的 UA 也算是某种爬虫,因此在网站启用 Cloudflare 的防止 AI 抓爬功能后,RSS 阅读器的爬虫也会被拦截,从而导致用户无法通过 RSS 阅读器查看内容。

OpenRSS 日前发布博客指出了这个问题,呼吁网站管理员针对这种情况进行处理,否则会影响用户正常通过 RSS 阅读器进行阅读。

要解决这个问题也不难,例如蓝点网支持通过 RSS 全文输出内容,我们在提供这个功能时考虑到抓爬可能被误杀,即将 RSS 爬虫的请求当作 CC 攻击而拦截。

因此我们也在服务器上做了一些特别处理,下面是一些建议供各位站长参考:

1. 如果使用 Cloudflare 则将特定字符的爬虫添加到白名单,通常 RSS 阅读器的爬虫带有关键词 rss 或 feed,可以通过关键词匹配检测到此类爬虫就默认放行 (但弊端是垃圾爬虫也可以使用这个方法来规避检测和拦截);

2. 将 rss 或 feed 地址添加到白名单里,允许任意爬虫访问该地址,但网站其他部分依然保持安全策略,因为 RSS 阅读器通常只需要获取 RSS 列表读取内容,无需对每个地址进行访问,但垃圾爬虫则会从 RSS 获得列表后挨个访问抓取内容 (这种策略不适合全文输出的 RSS,例如蓝点网的 RSS 是全文输出因此爬虫并不需要继续访问其他页面,但这个策略蓝点网后续也会进行调整)。

3. 以上两种方式都不是最佳解决方案,OpenRSS 的建议是将 RSS 阅读器的 IP 地址添加到白名单,但这个数据收集是个很大的问题,这依赖 RSS 阅读器提供商和网站管理员共同努力,但如果采用这种策略则未添加到白名单的 RSS 阅读器也会被拦截。

4.Cloudflare 还提供了个策略:RSS 阅读器可以申请将自己的爬虫添加到验证白名单中,只不过实际情况是部分验证了的爬虫还是会被拦截,这个属于 Cloudflare 的问题。

文章来源:https://www.landiannews.com/archives/106181.html

赞(0)
文章名称:《若使用Cloudflare最新的防AI抓爬功能则可能影响网站RSS显示(蓝点网不受影响)》
文章链接:https://nadian4.com/article/13293
本站内容来源于互联网搬运,仅限于小范围内传播学习和文献参考,如有侵权请联系我们删除。

相关推荐

评论 抢沙发

登录

找回密码

注册