AMH 面板流量防护 WAF 白名单配置指南:IP 与客户端两种方式详解

社区话题 Linux/macOS 与自动化运维 AMH 面板流量防护 WAF 白名单配置指南:IP 与客户端两种方式详解

  • 该话题为空。
正在查看 0 条回复
  • 作者
    帖子
    • #1255

      追光
      管理员

      这几天查看百度的搜索资源管理工具时候看到大量的429错误(waf防护拦截),也就是百度的爬虫被站点拦截了,然后开始重新设置waf防火墙。在使用 AMH 面板 的 Web 应用防火墙(WAF)或「流量防护」功能时,我们经常会遇到合法请求被误拦截的情况比如搜索引擎爬虫、监控脚本、API 客户端等。此时,合理配置 白名单 就显得尤为重要。

      AMH 提供了 两种白名单类型:IP 地址白名单 和 客户端白名单。本文将为你清晰梳理两者的区别、适用场景及正确配置方法。


      一、IP 地址白名单(基于来源 IP)

      原理:根据访问者的 真实 IP 地址 进行放行。只要请求来自该 IP(或 IP 段),无论其 User-Agent 是什么,均不受 WAF 规则限制。

      🔧 配置方式
      类型:IP地址
      白名单值:填写具体的 IPv4 或 IPv6 地址(不支持 CIDR 网段,需逐个添加)
      示例:

      43.143.133.170
      2402:4e00:c052:1a00:921e:e502:2eae:0

      📌 适用场景
      百度、Google 等搜索引擎官方公布的蜘蛛 IP(需定期更新);
      公司内部固定出口 IP;
      第三方服务回调 IP(如微信、支付宝通知)。

      ⚠️ 注意事项
      IP 可能变动(尤其云服务商),需定期维护;
      无法防御 IP 伪造(但在反向代理后通常可信);
      不支持网段写法(如 192.168.1.0/24),AMH 仅接受单个 IP。


      二、客户端白名单(基于 User-Agent)

      原理:根据 HTTP 请求头中的 User-Agent 字符串 进行匹配。AMH 默认采用 完全匹配模式,但支持正则表达式。

      💡 本质:识别“谁在访问”是浏览器?爬虫?还是自动化脚本?

      🔧 配置方式
      类型:客户端
      白名单值:必须使用正则表达式 实现“包含匹配”
      示例(放行主流搜索引擎):
      regex

      
      .*BaiduMoba.*,agent
      .*BaiduImage.*,agent
      .*baiduboxapp.*,agent
      .*SP-engine.*,agent
      .*Bytespider.*,agent
      .*YisouSpider.*,agent
      .*360Spider.*,agent
      .*Sogou.*,agent
      .*bingbot.*,agent
      .*Googlebot.*,agent
      .*Baiduspider.*,agent
      .*OAI-SearchBot.*       # OpenAI 的 ChatGPT 数据爬虫
      

      📌 适用场景
      放行搜索引擎爬虫(当 IP 频繁变动时更灵活);
      允许特定监控工具或 API 客户端通过(如自定义 UA 的脚本);
      快速放行 AI 爬虫(如 GPTBot、Google-Extended)。

      ⚠️ 注意事项
      User-Agent 可被伪造,不可用于安全防护,仅作“防误杀”用途;
      若不写正则(如直接填 Baiduspider),因 UA 是长字符串,完全匹配会失败;
      推荐使用 .关键字. 格式确保兼容性。


      三、最佳实践建议

      | 需求 | 推荐方式 |

      | 放行百度蜘蛛 | ✅ 同时配置:IP 白名单(官方 IP) + 客户端白名单(.Baiduspider.) |
      | 防止 ChatGPT 抓取 | ❌ 不加白名单,并在 robots.txt 中屏蔽 GPTBot |
      | 内部系统调用 | ✅ 使用固定 IP 白名单(更安全可靠) |
      | 第三方服务回调 | ✅ 优先使用 IP 白名单(若 IP 固定) |

      四、常见误区

      ❌ 误区1:在“客户端”类型中填写 IP 地址 → 无效!
      ❌ 误区2:直接填写 Googlebot 而不加正则 → 因完全匹配失败,无法放行!
      ✅ 正确姿势:客户端白名单 = 正则表达式 + User-Agent 关键字。

      合理使用 AMH 的两种白名单机制,既能保障网站安全,又能避免误伤合法流量。IP 白名单重“来源可信”,客户端白名单重“身份识别”,二者互补,方能构建更智能的防护策略。

      📝 提示:定期检查搜索引擎官方文档(如 [百度搜索资源平台](https://ziyuan.baidu.com/)、[Google Search Central](https://developers.google.com/search))获取最新爬虫信息。

正在查看 0 条回复
  • 在下方一键注册,登录后就可以回复啦。