Die durchschnittliche Latenz verbirgt die langsamen Scrapes. In einem nächtlichen Job mit 10.000 Produkt-URLs können die meisten Aufrufe in 1–2 Sekunden abgeschlossen sein, während einige nach einem CAPTCHA-Retry bei 20 Sekunden hängen bleiben. Der Mittelwert sieht immer noch gut aus; Ihre Deadline jedoch nicht.
Perzentile (p50, p75, p90, p95, p99) zeigen, wie die Antwortzeiten verteilt sind. Sie beantworten die Frage: "Wie lange haben mindestens X% der Scrapes gedauert?"
Verfolgen Sie diese bei Ihren Zielen mit Scraper APIs. Vergleichen Sie Crawler vs. Rendering vs. WebUnlocker-Modi, bevor Sie eine Website verantwortlich machen.
Was jedes Perzentil bedeutet
pN = N% der Anfragen wurden in dieser Zeit oder schneller abgeschlossen.
| Perzentil | Bedeutung |
|---|---|
| p50 | Median: Die Hälfte der Scrapes war so schnell oder schneller. |
| p75 | 3 von 4 Scrapes wurden innerhalb dieses Zeitfensters abgeschlossen. |
| p90 | 9 von 10. |
| p95 | 19 von 20. |
| p99 | 99 von 100, der langsame Ausreißer, der Batch-Jobs zum Scheitern bringt. |
Scraping-Beispiele
Derselbe Preisüberwachungsjob, verschiedene Seiten:
| Perzentil | Beispiel | Latenz |
|---|---|---|
| p50 | Statische Produktseite, Crawler-Modus | 0,8 s |
| p75 | Kategorieauflistung mit Paginierung | 1,5 s |
| p90 | React-Produktdetailseite, Rendering wartet auf Preisselektor | 3 s |
| p95 | Jobbörsenauflistung nach einem 403-Retry + Proxy-Rotation | 6 s |
| p99 | Marktplatz hinter DataDome, WebUnlocker + CAPTCHA | 18 s |
p50 = 0,8 s, aber p99 = 18 s ist beim Scraping normal. Der Median zeigt Ihnen die Kosten pro Seite; der Ausreißer zeigt Ihnen, ob der Job rechtzeitig abgeschlossen wird.
Warum der Durchschnitt lügt
1.000 Scrapes: 900 × 1 s, 90 × 8 s (CAPTCHA-Retry), 10 × 45 s (Timeout). Mittelwert ≈ 3 s, aber 10% warteten 8 s+. Perzentile machen diese Lücke sofort sichtbar.
Was Sie in der Produktion beobachten sollten
Unterteilen Sie die Latenz nach Domain, HTTP-Status und Scrape-Modus (1 / 2 / 3 Credits). Zeichnen Sie p50 und p99 gemeinsam auf: Wenn p50 flach ist, aber p99 steigt, haben Sie wahrscheinlich neue Anti-Bot-Regeln oder defekte Selektoren getroffen, nicht eine globale Verlangsamung.
Batch-Jobs: Setzen Sie Timeouts auf p95, SLAs auf p99. Beispiel-SLA: "p95 ≤ 5 s über 24 h, nur erfolgreiche Scrapes."
Erkenntnisse
- p50 = typische Scrape-Kosten; p99 = warum der nächtliche Job sein Zeitfenster verpasst hat.
- Spitzen im langsamen Bereich entstehen durch Retries, JS-Rendering, Anti-Bot-Maßnahmen und kalte Proxy-Sitzungen, selten aber teuer.
- Beheben Sie den Median mit Crawler; beheben Sie den langsamen Bereich mit WebUnlocker oder engeren Domain-Obergrenzen.