La latence moyenne masque les scrapes lents. Sur un job nocturne de 10 000 fiches produit, la plupart des appels finissent en 1–2 s, quelques-uns traînent à 20 s après un retry CAPTCHA. La moyenne reste rassurante ; la deadline, non.
Les percentiles (p50, p75, p90, p95, p99) montrent comment les temps de réponse se répartissent. Ils répondent à : « En combien de temps au moins X % des scrapes se sont-ils terminés ? »
Suivez-les sur vos cibles avec les Scraper APIs. Comparez les modes Crawler vs Rendering vs WebUnlocker avant d'incriminer un site.
Ce que signifie chaque percentile
pN = N % des requêtes se sont terminées en ce temps ou plus vite.
| Percentile | Signification |
|---|---|
| p50 | Médiane : la moitié des scrapes ont été au moins aussi rapides. |
| p75 | 3 scrapes sur 4 dans cette fenêtre. |
| p90 | 9 sur 10. |
| p95 | 19 sur 20. |
| p99 | 99 sur 100, la queue lente qui fait déraper les jobs batch. |
Exemples en scraping
Même job de veille tarifaire, pages différentes :
| Percentile | Exemple | Latence |
|---|---|---|
| p50 | Fiche produit statique, mode Crawler | 0,8 s |
| p75 | Listing catégorie avec pagination | 1,5 s |
| p90 | PDP React, attente sélecteur prix en Rendering | 3 s |
| p95 | Annonce job board après un retry 403 + rotation proxy | 6 s |
| p99 | Marketplace protégée DataDome, WebUnlocker + CAPTCHA | 18 s |
p50 = 0,8 s mais p99 = 18 s, c'est normal en scraping. La médiane indique le coût par page ; la queue indique si le job finit à l'heure.
Pourquoi la moyenne ment
1 000 scrapes : 900 × 1 s, 90 × 8 s (retry CAPTCHA), 10 × 45 s (timeout). Moyenne ≈ 3 s, mais 10 % ont attendu 8 s+. Les percentiles rendent cet écart visible tout de suite.
Que surveiller en production
Découpez la latence par domaine, statut HTTP et mode de scrape (1 / 2 / 3 crédits). Tracez p50 et p99 ensemble : si p50 est stable mais p99 monte, c'est souvent une nouvelle règle anti-bot ou un sélecteur cassé, pas un ralentissement global.
Jobs batch : dimensionnez les timeouts sur p95, les SLA sur p99. Exemple : « p95 ≤ 5 s sur 24 h, scrapes réussis uniquement. »
À retenir
- p50 = scrape typique ; p99 = pourquoi le job nocturne a dépassé son créneau.
- La queue vient des retries, du rendu JS, de l'anti-bot et des sessions proxy froides, rare mais coûteux.
- Optimisez la médiane avec Crawler ; la queue avec WebUnlocker ou des plafonds par domaine.