Piloterr ofrece tres productos complementarios para sitios web. Esta guía explica cómo difieren y cuándo usar cada uno.
Introducción rápida al Web Scraping
El web scraping es la recuperación programática de contenido web (HTML/JSON) para extraer información estructurada. Hay dos enfoques prácticos:
- Modo solicitud: emitir solicitudes HTTP con encabezados realistas, TLS y huellas de red para obtener respuestas del servidor directamente.
- Modo navegador: controlar navegadores sin cabeza que ejecutan JavaScript, cargan recursos y renderizan el DOM final.
Los desafíos comunes incluyen el renderizado dinámico del lado del cliente, redirecciones, paginación, límites de tasa, variaciones geográficas/locales y sistemas anti-bot empresariales. Usa el scraping de manera responsable y en cumplimiento con las leyes aplicables y los términos del sitio objetivo.
Productos de Piloterr
- Website Crawler: Modo de solicitud HTTP con fingerprinting avanzado. El más rápido y de menor costo (1 crédito), ideal para HTML estático y endpoints de API/JSON. Sin ejecución de JavaScript.
- Website Rendering: Navegadores sin cabeza realistas que ejecutan JavaScript completamente. Admite esperas y selectores para una preparación confiable del DOM. Mayor costo (2 créditos). Puede fallar ocasionalmente en páginas pesadas/lentas o configuraciones anti-bot estrictas.
- Website WebUnlocker: Modo de solicitud HTTP con bypass de anti-bot empresarial (Cloudflare, DataDome, PerimeterX, Akamai, etc.). Se requiere lista blanca. 3 créditos. Tasa de éxito del 100% en dominios aprobados. Sin ejecución de JavaScript.
¿Cómo funcionan?
Crawler (Modo solicitud)
- Realiza solicitudes HTTP(S) directas con fingerprinting inteligente de encabezados y TLS.
- No ejecuta JavaScript; devuelve rápidamente el HTML sin procesar o la carga útil del cuerpo.
- Banderas opcionales como
allow_redirectsyreturn_page_sourcecontrolan el comportamiento.
Rendering (Modo navegador)
- Inicia navegadores realistas para obtener y renderizar páginas del lado del cliente.
- Ejecuta JavaScript, carga recursos y puede esperar la estabilidad del DOM con
wait_in_secondso selectoreswait_for; soportatimeout,block_adse instrucciones del navegador. - Más intensivo en recursos pero esencial para aplicaciones con mucho JavaScript.
WebUnlocker (Anti-bot)
- Realiza solicitudes HTTP(S) directas con bypass avanzado de anti-bot, similar a Crawler pero ajustado para objetivos más difíciles.
- No ejecuta JavaScript; devuelve el HTML sin procesar o la carga útil del cuerpo después de pasar los desafíos del proveedor.
- Opciones como
allow_redirectsyreturn_page_sourcefuncionan de la misma manera que en Crawler. - Ajustado para pasar desafíos avanzados de anti-bot en dominios permitidos con éxito casi instantáneo y estabilidad.
¿Cuándo usar cuál?
- Elige Crawler: cuando las páginas son mayormente estáticas, estás accediendo a endpoints de API, necesitas el máximo rendimiento/menor latencia, o quieres la opción más económica.
- Elige Rendering: cuando el contenido se renderiza del lado del cliente, necesitas preparación precisa del DOM, o requieres un comportamiento similar a la interacción (ejecución de JS).
- Elige WebUnlocker: cuando te enfrentas a defensas anti-bot de nivel empresarial (por ejemplo, Cloudflare, DataDome, PerimeterX, Akamai) en páginas estáticas o renderizadas por el servidor y requieres una tasa de éxito del 100% en dominios aprobados. Para JavaScript del lado del cliente, usa Rendering en su lugar.
¿Cuándo elegir WebUnlocker?
Elige WebUnlocker cuando el caso de uso es crítico: necesitas datos en tiempo real (precios, inventario, listados, cumplimiento normativo...) y no puedes aceptar latencia de 10-20 segundos por solicitud, que Rendering a menudo impone en objetivos protegidos. WebUnlocker permanece en modo de solicitud HTTP (sin ejecución de JS) con bypass anti-bot ajustado para devolver respuestas en segundos, con un 100% de éxito en dominios aprobados.
Diferencias clave de un vistazo
| Característica | Crawler | Rendering | WebUnlocker |
|---|---|---|---|
| Ejecución de JavaScript | ❌ | ✅ | ❌ |
| Resistencia anti-bot | Básica (fingerprinting) | Media | Muy alta (bypass de anti-bot empresarial) |
| Latencia típica | La más baja | Media/Alta | Muy baja; diseñada para un 100% de éxito en dominios aprobados |
| Costo por solicitud | 1 crédito | 2 créditos | 3 créditos |
Explora la documentación
Conclusión
Usa el Crawler cuando necesites velocidad, escala y el menor costo para páginas estáticas o renderizadas por el servidor y APIs. Elige Rendering cuando el sitio dependa de JavaScript del lado del cliente y necesites esperas conscientes del DOM. Opta por WebUnlocker para propiedades estáticas o renderizadas por el servidor protegidas por sistemas anti-bot empresariales en dominios aprobados: ofrece una latencia muy baja con una tasa de éxito del 100%, sin ejecutar JavaScript.