AMH 面板流量防护 WAF 白名单配置指南:IP 与客户端两种方式详解
› 社区话题 › Linux/macOS 与自动化运维 › AMH 面板流量防护 WAF 白名单配置指南:IP 与客户端两种方式详解
- 该话题为空。

- 作者帖子
- 2025年10月10日 - 下午3:58 #1255
追光管理员这几天查看百度的搜索资源管理工具时候看到大量的429错误(waf防护拦截),也就是百度的爬虫被站点拦截了,然后开始重新设置waf防火墙。在使用 AMH 面板 的 Web 应用防火墙(WAF)或「流量防护」功能时,我们经常会遇到合法请求被误拦截的情况比如搜索引擎爬虫、监控脚本、API 客户端等。此时,合理配置 白名单 就显得尤为重要。
AMH 提供了 两种白名单类型:IP 地址白名单 和 客户端白名单。本文将为你清晰梳理两者的区别、适用场景及正确配置方法。
一、IP 地址白名单(基于来源 IP)
✅ 原理:根据访问者的 真实 IP 地址 进行放行。只要请求来自该 IP(或 IP 段),无论其 User-Agent 是什么,均不受 WAF 规则限制。
🔧 配置方式
类型:IP地址
白名单值:填写具体的 IPv4 或 IPv6 地址(不支持 CIDR 网段,需逐个添加)
示例:43.143.133.170 2402:4e00:c052:1a00:921e:e502:2eae:0
📌 适用场景
百度、Google 等搜索引擎官方公布的蜘蛛 IP(需定期更新);
公司内部固定出口 IP;
第三方服务回调 IP(如微信、支付宝通知)。⚠️ 注意事项
IP 可能变动(尤其云服务商),需定期维护;
无法防御 IP 伪造(但在反向代理后通常可信);
不支持网段写法(如 192.168.1.0/24),AMH 仅接受单个 IP。二、客户端白名单(基于 User-Agent)
✅ 原理:根据 HTTP 请求头中的 User-Agent 字符串 进行匹配。AMH 默认采用 完全匹配模式,但支持正则表达式。
💡 本质:识别“谁在访问”是浏览器?爬虫?还是自动化脚本?
🔧 配置方式
类型:客户端
白名单值:必须使用正则表达式 实现“包含匹配”
示例(放行主流搜索引擎):
regex.*BaiduMoba.*,agent .*BaiduImage.*,agent .*baiduboxapp.*,agent .*SP-engine.*,agent .*Bytespider.*,agent .*YisouSpider.*,agent .*360Spider.*,agent .*Sogou.*,agent .*bingbot.*,agent .*Googlebot.*,agent .*Baiduspider.*,agent .*OAI-SearchBot.* # OpenAI 的 ChatGPT 数据爬虫
📌 适用场景
放行搜索引擎爬虫(当 IP 频繁变动时更灵活);
允许特定监控工具或 API 客户端通过(如自定义 UA 的脚本);
快速放行 AI 爬虫(如 GPTBot、Google-Extended)。⚠️ 注意事项
User-Agent 可被伪造,不可用于安全防护,仅作“防误杀”用途;
若不写正则(如直接填 Baiduspider),因 UA 是长字符串,完全匹配会失败;
推荐使用 .关键字. 格式确保兼容性。三、最佳实践建议
| 需求 | 推荐方式 |
| 放行百度蜘蛛 | ✅ 同时配置:IP 白名单(官方 IP) + 客户端白名单(.Baiduspider.) |
| 防止 ChatGPT 抓取 | ❌ 不加白名单,并在 robots.txt 中屏蔽 GPTBot |
| 内部系统调用 | ✅ 使用固定 IP 白名单(更安全可靠) |
| 第三方服务回调 | ✅ 优先使用 IP 白名单(若 IP 固定) |四、常见误区
❌ 误区1:在“客户端”类型中填写 IP 地址 → 无效!
❌ 误区2:直接填写 Googlebot 而不加正则 → 因完全匹配失败,无法放行!
✅ 正确姿势:客户端白名单 = 正则表达式 + User-Agent 关键字。合理使用 AMH 的两种白名单机制,既能保障网站安全,又能避免误伤合法流量。IP 白名单重“来源可信”,客户端白名单重“身份识别”,二者互补,方能构建更智能的防护策略。
📝 提示:定期检查搜索引擎官方文档(如 [百度搜索资源平台](https://ziyuan.baidu.com/)、[Google Search Central](https://developers.google.com/search))获取最新爬虫信息。
- 作者帖子
- 在下方一键注册,登录后就可以回复啦。