Piloterr bietet drei ergänzende Website-Produkte. Dieser Leitfaden erklärt die Unterschiede und wann Sie welches Produkt einsetzen.
Kurze Einführung in Web Scraping
Web Scraping ist die programmatische Abfrage von Webinhalten (HTML/JSON), um strukturierte Informationen zu extrahieren. Es gibt zwei praktische Ansätze:
- Request-Modus : HTTP-Anfragen mit realistischen Headern, TLS- und Netzwerk-Fingerprints senden, um Serverantworten direkt abzurufen.
- Browser-Modus : Headless-Browser steuern, die JavaScript ausführen, Ressourcen laden und das finale DOM rendern.
Typische Herausforderungen sind clientseitiges Rendering, Weiterleitungen, Paginierung, Rate Limits, Geo-/Locale-Unterschiede und Enterprise-Anti-Bot-Systeme. Nutzen Sie Scraping verantwortungsvoll und im Einklang mit geltenden Gesetzen und den Nutzungsbedingungen der Zielseiten.
Piloterr-Produkte
- Website Crawler : HTTP-Request-Modus mit erweitertem Fingerprinting. Am schnellsten und günstigsten (1 Credit), ideal für statisches HTML und API-/JSON-Endpoints. Keine JavaScript-Ausführung.
- Website Rendering : Realistische Headless-Browser, die JavaScript vollständig ausführen. Unterstützt Waits und Selektoren für zuverlässige DOM-Verfügbarkeit. Höhere Kosten (2 Credits). Kann bei schweren/langsamen Seiten oder strengen Anti-Bot-Setups gelegentlich fehlschlagen.
- Website WebUnlocker : HTTP-Request-Modus mit Enterprise-Anti-Bot-Bypass (Cloudflare, DataDome, PerimeterX, Akamai usw.). Allowlist erforderlich. 3 Credits. 100 % Erfolgsrate auf genehmigten Domains. Keine JavaScript-Ausführung.
Wie funktionieren sie?
Crawler (Request-Modus)
- Führt direkte HTTP(S)-Anfragen mit intelligentem Header- und TLS-Fingerprinting aus.
- Führt kein JavaScript aus; liefert schnell rohes HTML oder den Response-Body.
- Optionen wie
allow_redirectsundreturn_page_sourcesteuern das Verhalten.
Rendering (Browser-Modus)
- Startet realistische Browser, um Seiten clientseitig abzurufen und zu rendern.
- Führt JavaScript aus, lädt Ressourcen und kann mit
wait_in_secondsoderwait_for-Selektoren auf DOM-Stabilität warten; unterstützttimeout,block_adsund Browser-Anweisungen. - Ressourcenintensiver, aber unverzichtbar für JS-lastige Anwendungen.
WebUnlocker (Anti-Bot)
- Führt direkte HTTP(S)-Anfragen mit erweitertem Anti-Bot-Bypass aus, ähnlich dem Crawler, aber für gehärtete Ziele optimiert.
- Führt kein JavaScript aus; liefert rohes HTML oder den Response-Body nach dem Bestehen von Vendor-Challenges.
- Optionen wie
allow_redirectsundreturn_page_sourcefunktionieren wie beim Crawler. - Optimiert, um fortgeschrittene Anti-Bot-Challenges auf Allowlist-Domains mit nahezu sofortigem Erfolg und Stabilität zu bestehen.
Wann welches Produkt?
- Crawler wählen : wenn Seiten überwiegend statisch sind, Sie API-Endpoints ansprechen, maximalen Durchsatz/minimale Latenz brauchen oder die günstigste Option wünschen.
- Rendering wählen : wenn Inhalte clientseitig gerendert werden, Sie präzise DOM-Verfügbarkeit benötigen oder interaktionsähnliches Verhalten (JS-Ausführung) erfordern.
- WebUnlocker wählen : wenn Sie Enterprise-Anti-Bot-Abwehr (z. B. Cloudflare, DataDome, PerimeterX, Akamai) auf statischen oder serverseitig gerenderten Seiten begegnen und eine 100 %-Erfolgsrate auf genehmigten Domains benötigen. Für clientseitiges JavaScript nutzen Sie stattdessen Rendering.
Wann WebUnlocker einsetzen?
Setzen Sie WebUnlocker ein, wenn der Use Case kritisch ist: Sie benötigen Echtzeitdaten (Preise, Lagerbestände, Anzeigen, regulatorische Compliance…) und können keine Latenz von 10 bis 20 Sekunden pro Anfrage akzeptieren, die Rendering auf geschützten Zielen oft verursacht. WebUnlocker bleibt im HTTP-Request-Modus (ohne JS-Ausführung) mit optimiertem Anti-Bot-Bypass und liefert Antworten in Sekunden mit 100 % Erfolg auf genehmigten Domains.
Wichtige Unterschiede auf einen Blick
| Merkmal | Crawler | Rendering | WebUnlocker |
|---|---|---|---|
| JavaScript-Ausführung | ❌ | ✅ | ❌ |
| Anti-Bot-Resilienz | Basis (Fingerprinting) | Mittel | Sehr hoch (Enterprise-Anti-Bot-Bypass) |
| Typische Latenz | Am niedrigsten | Mittel/hoch | Sehr niedrig; für 100 % Erfolg auf genehmigten Domains ausgelegt |
| Kosten pro Anfrage | 1 Credit | 2 Credits | 3 Credits |
Dokumentation erkunden
Fazit
Nutzen Sie den Crawler, wenn Sie Geschwindigkeit, Skalierung und die niedrigsten Kosten für statische oder serverseitig gerenderte Seiten und APIs brauchen. Wählen Sie Rendering, wenn die Seite auf clientseitigem JavaScript basiert und Sie DOM-bewusste Waits benötigen. Entscheiden Sie sich für WebUnlocker bei statischen oder serverseitig gerenderten Seiten mit Enterprise-Anti-Bot-Schutz auf genehmigten Domains: sehr niedrige Latenz, 100 % Erfolgsrate, ohne JavaScript-Ausführung.