Piloterr propose trois produits web complémentaires. Ce guide explique leurs différences et quand utiliser chacun.
Introduction rapide au web scraping
Le web scraping est la récupération programmatique de contenu web (HTML/JSON) afin d'en extraire des informations structurées. Deux approches pratiques existent :
- Mode requête : émettre des requêtes HTTP avec des en-têtes, une empreinte TLS et un comportement réseau réalistes pour récupérer directement les réponses du serveur.
- Mode navigateur : piloter des navigateurs headless qui exécutent JavaScript, chargent les ressources et rendent le DOM final.
Les défis courants incluent le rendu côté client, les redirections, la pagination, les limites de débit, les variations géographiques/locales et les systèmes anti-bot d'entreprise. Utilisez le scraping de manière responsable et conformément aux lois applicables et aux conditions d'utilisation des sites cibles.
Produits Piloterr
- Website Crawler : mode requête HTTP avec fingerprinting avancé. Le plus rapide et le moins coûteux (1 crédit), idéal pour le HTML statique et les endpoints API/JSON. Pas d'exécution JavaScript.
- Website Rendering : navigateurs headless réalistes qui exécutent JavaScript intégralement. Prend en charge les attentes et sélecteurs pour garantir la disponibilité du DOM. Coût plus élevé (2 crédits). Peut échouer occasionnellement sur des pages lourdes/lentes ou des configurations anti-bot strictes.
- Website WebUnlocker : hybride Rendering + Crawler avec contournement anti-bot robuste (Cloudflare, DataDome, PerimeterX, Akamai, etc.). Liste blanche requise. 2 crédits. Taux de réussite de 100 % sur les domaines autorisés.
Comment fonctionnent-ils ?
Crawler (mode requête)
- Effectue des requêtes HTTP(S) directes avec un fingerprinting intelligent des en-têtes et TLS.
- N'exécute pas JavaScript ; renvoie rapidement le HTML brut ou le corps de la réponse.
- Des options comme
allow_redirectsetreturn_page_sourcecontrôlent le comportement.
Rendering (mode navigateur)
- Lance des navigateurs réalistes pour récupérer et rendre les pages côté client.
- Exécute JavaScript, charge les ressources et peut attendre la stabilité du DOM avec
wait_in_secondsou des sélecteurswait_for; prend en chargetimeout,block_adset les instructions navigateur. - Plus gourmand en ressources, mais indispensable pour les applications lourdes en JavaScript.
WebUnlocker (anti-bot)
- Combine les techniques Rendering et Crawler avec une évitement dédié.
- Calibré pour passer les défis anti-bot avancés sur les domaines en liste blanche.
- Vise une réussite quasi instantanée et une stabilité sur les propriétés durcies.
Quand utiliser lequel ?
- Choisir Crawler : lorsque les pages sont majoritairement statiques, que vous appelez des endpoints API, que vous avez besoin d'un débit maximal/d'une latence minimale, ou que vous souhaitez l'option la plus économique.
- Choisir Rendering : lorsque le contenu est rendu côté client, que vous avez besoin d'une disponibilité DOM précise, ou que vous exigez un comportement de type interaction (exécution JS).
- Choisir WebUnlocker : lorsque vous affrontez des défenses anti-bot de niveau entreprise (Cloudflare, DataDome, PerimeterX, Akamai, etc.) et que vous exigez un taux de réussite de 100 % sur les domaines autorisés.
Différences clés en un coup d'œil
| Fonctionnalité | Crawler | Rendering | WebUnlocker |
|---|---|---|---|
| Exécution JavaScript | ❌ | ✅ | ✅ |
| Résilience anti-bot | Basique (fingerprinting) | Moyenne | Très élevée (contournement anti-bot entreprise) |
| Latence typique | La plus faible | Moyenne/élevée | Très faible ; conçu pour 100 % de réussite sur les domaines autorisés |
| Coût par requête | 1 crédit | 2 crédits | 2 crédits |
Explorer la documentation
Conclusion
Utilisez le Crawler lorsque vous avez besoin de vitesse, d'échelle et du coût le plus bas pour les pages statiques ou rendues côté serveur et les API. Choisissez Rendering lorsque le site repose sur JavaScript côté client et que vous avez besoin d'attentes sensibles au DOM. Optez pour WebUnlocker pour les propriétés protégées par des systèmes anti-bot d'entreprise sur les domaines autorisés : il offre une latence très faible avec un taux de réussite de 100 %.