A latência média esconde os scrapes lentos. Em um trabalho noturno de 10.000 URLs de produtos, a maioria das chamadas pode terminar em 1–2 s, enquanto algumas ficam em 20 s após uma nova tentativa de CAPTCHA. A média ainda parece boa; o prazo, não.
Os percentis (p50, p75, p90, p95, p99) mostram como os tempos de resposta estão distribuídos. Eles respondem: "Quanto tempo pelo menos X% dos scrapes levaram?"
Acompanhe-os em seus alvos com Scraper APIs. Compare os modos Crawler vs Rendering vs WebUnlocker antes de culpar um site.
O que cada percentil significa
pN = N% das solicitações terminaram nesse tempo ou mais rápido.
| Percentil | Significado |
|---|---|
| p50 | Mediana: metade dos scrapes foi tão rápida ou mais rápida. |
| p75 | 3 em cada 4 scrapes terminaram dentro dessa janela. |
| p90 | 9 em cada 10. |
| p95 | 19 em cada 20. |
| p99 | 99 em cada 100, a cauda lenta que quebra trabalhos em lote. |
Exemplos de scraping
Mesmo trabalho de monitoramento de preços, páginas diferentes:
| Percentil | Exemplo | Latência |
|---|---|---|
| p50 | Página de produto estática, modo Crawler | 0,8 s |
| p75 | Lista de categorias com paginação | 1,5 s |
| p90 | PDP em React, Rendering aguardando seletor de preço | 3 s |
| p95 | Lista de quadro de empregos após uma nova tentativa de 403 + rotação de proxy | 6 s |
| p99 | Marketplace protegido por DataDome, WebUnlocker + CAPTCHA | 18 s |
p50 = 0,8 s, mas p99 = 18 s é normal em scraping. A mediana informa o custo por página; a cauda informa se o trabalho termina no prazo.
Por que a média mente
1.000 scrapes: 900 × 1 s, 90 × 8 s (nova tentativa de CAPTCHA), 10 × 45 s (timeout). Média ≈ 3 s, mas 10% esperaram 8 s ou mais. Os percentis revelam essa lacuna imediatamente.
O que observar em produção
Fatie a latência por domínio, status HTTP e modo de scrape (1 / 2 / 3 créditos). Plote p50 e p99 juntos: se o p50 estiver estável, mas o p99 aumentar, provavelmente você atingiu novas regras anti-bot ou seletores quebrados, não uma desaceleração global.
Trabalhos em lote: dimensione os timeouts no p95, SLAs no p99. Exemplo de SLA: "p95 ≤ 5 s em 24 h, apenas scrapes bem-sucedidos."
Conclusões
- p50 = custo típico do scrape; p99 = por que o trabalho noturno perdeu a janela.
- Picos na cauda vêm de novas tentativas, renderização JS, anti-bot e sessões frias de proxy, raros, mas caros.
- Corrija a mediana com Crawler; corrija a cauda com WebUnlocker ou limites mais rígidos por domínio.