🔖 Fail2ban 搜索引擎白名单分享涵盖 Google/Bing/Baidu等主流搜索引擎

VFX大学 Linux/macOS 与自动化运维 🔖 Fail2ban 搜索引擎白名单分享涵盖 Google/Bing/Baidu等主流搜索引擎

正在查看 3 条回复
  • 作者
    帖子
    • #911

      追光
      管理员

      下面是一份“搜索引擎白名单(Fail2ban用)”分享内容,已经整理为一行一个 IP 段,并按照Google → Bing → 百度分类:

      🔖 Fail2ban 搜索引擎白名单分享

      将下面这些常见搜索引擎爬虫 IP 段加入 ignoreip,可避免误封 Google / Bing / 百度蜘蛛:

      🟢 Googlebot

      66.249.0.0/16
      64.233.160.0/19
      72.14.192.0/18
      203.208.32.0/19
      74.125.0.0/16
      216.239.32.0/19

      🔵 Bingbot

      13.66.0.0/16
      13.67.0.0/16
      13.68.0.0/16
      13.69.0.0/16
      20.36.0.0/14
      20.40.0.0/13
      20.60.0.0/14
      40.76.0.0/14
      40.80.144.0/20
      40.90.0.0/15
      52.128.0.0/14

      🟡 Baiduspider

      111.13.0.0/16
      111.206.0.0/16
      123.125.64.0/18
      180.76.0.0/16
      220.181.0.0/16

      📌 用法参考:
      修改 /etc/fail2ban/jail.local:

      [DEFAULT]
      ignoreip = 127.0.0.1/8 ::1
      66.249.0.0/16
      64.233.160.0/19
      72.14.192.0/18
      ...
      220.181.0.0/16

      然后重启:

      systemctl restart fail2ban

    • #913

      追光
      管理员

      当然除了 Google / Bing / 百度,下面这些搜索引擎机器人在国内外也经常来抓取,建议根据你网站的受众情况,按需加入白名单:

      🌍 海外常见搜索引擎爬虫

      🔸 Yandex(俄罗斯)

      5.45.207.0/24
      5.255.192.0/18
      37.9.64.0/18
      77.88.0.0/18
      100.43.64.0/18
      141.8.128.0/18
      178.154.128.0/18

      🔸 DuckDuckGo(Privacy Search)

      40.88.21.235/32
      20.191.45.0/24
      20.191.47.0/24

      🔸 Yahoo (Slurp)

      74.6.0.0/16
      98.136.0.0/14

      🇨🇳 国内主要搜索引擎爬虫

      🔸 360 搜索(so.com/360Spider)

      101.226.4.0/16
      220.181.108.0/22
      123.125.71.0/24
      42.236.10.0/24

      🔸 搜狗(Sogou Spider)

      123.126.0.0/17
      220.181.0.0/24
      124.115.0.0/16
      36.110.0.0/16

      🔸 神马(sm.cn)

      114.119.128.0/18
      106.11.0.0/16
      36.155.0.0/16
    • #916

      追光
      管理员

      我是这样写的,最近NewVFX启用Fail2ban后防护效果非常强大,系统级的的拦截不消耗资源,当前前提是开启Nginx日志。我选取了最主流的流的,当然其他的不设置也能正常索引,因为这些大搜索引擎的爬虫量非常巨大,容易被封,当然duckduckgo,是唯一一个API免费的,出于个人尊重我肯定要加的:

      针对Fail2ban的白名单

      127.0.0.1/8
      66.249.0.0/16
      64.233.160.0/19
      72.14.192.0/18
      203.208.32.0/19
      74.125.0.0/16
      216.239.32.0/19
      13.66.0.0/16
      13.67.0.0/16
      13.68.0.0/16
      13.69.0.0/16
      20.36.0.0/14
      20.40.0.0/13
      20.60.0.0/14
      40.76.0.0/14
      40.80.144.0/20
      40.90.0.0/15
      52.128.0.0/14
      111.13.0.0/16
      111.206.0.0/16
      123.125.64.0/18
      180.76.0.0/16
      220.181.0.0/16
      40.88.21.235/32
      20.191.45.0/24
      20.191.47.0/24

      Nginx防火墙的白名单写法不一样,这里也将NewVFX的配置分享给大家:

      20.191.47.0-20.191.47.255
      20.191.45.0-20.191.45.255
      220.181.0.0-220.181.255.255
      180.76.0.0-180.76.255.255
      123.125.0.0-123.125.63.255
      111.206.0.0-111.206.255.255
      111.13.0.0-111.13.255.255
      52.0.0.0-52.3.255.255
      40.0.0.0-40.1.255.255
      40.80.0.0-40.80.15.255
      40.0.0.0-40.3.255.255
      20.0.0.0-20.7.255.255
      20.0.0.0-20.3.255.255
      13.69.0.0-13.69.255.255
      13.68.0.0-13.68.255.255
      13.67.0.0-13.67.255.255
      13.66.0.0-13.66.255.255
      216.239.0.0-216.239.31.255
      74.125.0.0-74.125.255.255
      203.208.0.0-203.208.31.255
      72.14.0.0-72.14.63.255
      64.233.0.0-64.233.31.255
      66.249.0.0-66.249.255.255
      43.143.133.170-43.143.133.170
    • #942

      追光
      管理员

      Google 官方提供 JSON 接口 用于实时获取 Google 搜索爬虫使用的 IP:https://developers.google.com/search/apis/ipranges/googlebot.json,想动态获取 GoogleBot、BingBot 这类爬虫(bot)所使用的 IP 段 / IP 列表:

      #!/usr/bin/env bash
      curl -s https://developers.google.com/search/apis/ipranges/googlebot.json \
       | grep -Eo '[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+/[0-9]+' > googlebot_ip.txt
      echo "GoogleBot IP ranges updated: googlebot_ip.txt"
正在查看 3 条回复
  • 在下方一键注册,登录后就可以回复啦。