结论: 爬虫健康度不能只看成功率。使用穿云代理做长期采集时,应把成功页面、字段完整率、响应时间、地区匹配、重试比例和维护时间放在同一张检查表里评分。
工具用途
这份检查表适合评估公开数据采集系统是否稳定,也适合排查“昨天能跑、今天不稳”的问题。它把代理、页面、解析和调度放在同一个框架里看。
输入项
- 成功页面数和失败页面数。
- 关键字段完整率和空页面比例。
- 平均响应时间和超时比例。
- 地区输出是否与任务目标一致。
- 重试次数、队列积压和人工维护时间。

判断规则
| 评分项 | 健康表现 | 异常信号 |
| 成功率 | 稳定且波动小 | 短时间明显下降 |
| 字段完整率 | 关键字段齐全 | 页面成功但字段缺失 |
| 地区匹配 | 语言和市场一致 | 货币、语言或库存异常 |
| 重试比例 | 低且可解释 | 持续升高或循环重试 |
使用示例
如果成功率正常但字段完整率下降,问题可能在页面结构或地区输出;如果成功率和响应时间同时恶化,可能需要降低并发、延长退避或调整穿云代理出口。
常见问题
爬虫健康度多少分算正常?
不同业务基线不同,建议先记录 7 到 14 天正常区间,再用趋势变化判断异常。
代理问题和解析问题怎么区分?
代理问题通常伴随状态码、响应时间或地区异常;解析问题常表现为页面成功但字段缺失。
穿云代理需要监控哪些指标?
建议监控出口地区、成功页面、响应时间、失败状态、重试比例和单位有效数据成本。
健康度下降时先做什么?
先降频并保留异常样本,再排查页面结构、地区输出、并发和代理出口。