A Piloterr oferece três produtos complementares para websites. Este guia explica como eles diferem e quando usar cada um.
Introdução rápida ao Web Scraping
Web scraping é a recuperação programática de conteúdo da web (HTML/JSON) para extrair informações estruturadas. Existem duas abordagens práticas:
- Modo de solicitação : emite solicitações HTTP com cabeçalhos realistas, TLS e impressões digitais de rede para buscar respostas do servidor diretamente.
- Modo navegador : controla navegadores headless que executam JavaScript, carregam recursos e renderizam o DOM final.
Desafios comuns incluem renderização dinâmica do lado do cliente, redirecionamentos, paginação, limites de taxa, variação geográfica/local e sistemas anti-bot empresariais. Use scraping de forma responsável e em conformidade com as leis aplicáveis e os termos do site alvo.
Produtos da Piloterr
- Website Crawler : modo de solicitação HTTP com impressão digital avançada. Mais rápido e de menor custo (1 crédito), ideal para HTML estático e endpoints de API/JSON. Sem execução de JavaScript.
- Website Rendering : navegadores headless realistas que executam JavaScript completamente. Suporta esperas e seletores para prontidão confiável do DOM. Custo mais alto (2 créditos). Pode falhar ocasionalmente em páginas pesadas/lentas ou configurações anti-bot rigorosas.
- Website WebUnlocker : modo de solicitação HTTP com bypass de anti-bot empresarial (Cloudflare, DataDome, PerimeterX, Akamai, etc.). Lista de permissões necessária. 3 créditos. Taxa de sucesso de 100% em domínios aprovados. Sem execução de JavaScript.
Como eles funcionam?
Crawler (Modo de solicitação)
- Realiza solicitações HTTP(S) diretas com impressão digital inteligente de cabeçalho e TLS.
- Não executa JavaScript; retorna HTML bruto ou payload do corpo rapidamente.
- Flags opcionais como
allow_redirectsereturn_page_sourcecontrolam o comportamento.
Rendering (Modo navegador)
- Inicia navegadores realistas para buscar e renderizar páginas no lado do cliente.
- Executa Javascript, carrega recursos e pode esperar pela estabilidade do DOM com
wait_in_secondsou seletoreswait_for; suportatimeout,block_adse instruções de navegador. - Mais intensivo em recursos, mas essencial para aplicativos pesados em JS.
WebUnlocker (Anti-bot)
- Realiza solicitações HTTP(S) diretas com bypass avançado de anti-bot, semelhante ao Crawler, mas ajustado para alvos mais difíceis.
- Não executa JavaScript; retorna HTML bruto ou payload do corpo após passar pelos desafios do fornecedor.
- Opções como
allow_redirectsereturn_page_sourcefuncionam da mesma forma que no Crawler. - Ajustado para passar por desafios avançados de anti-bot em domínios permitidos com sucesso quase instantâneo e estabilidade.
Quando usar qual?
- Escolha o Crawler : quando as páginas são principalmente estáticas, você está acessando endpoints de API, precisa de máxima taxa de transferência/menor latência ou deseja a opção mais econômica.
- Escolha o Rendering : quando o conteúdo é renderizado no lado do cliente, você precisa de prontidão precisa do DOM ou requer comportamento semelhante à interação (execução de JS).
- Escolha o WebUnlocker : quando você enfrenta defesas anti-bot de nível empresarial (por exemplo, Cloudflare, DataDome, PerimeterX, Akamai) em páginas estáticas ou renderizadas no servidor e requer uma taxa de sucesso de 100% em domínios aprovados. Para JavaScript no lado do cliente, use o Rendering.
Quando escolher o WebUnlocker?
Escolha o WebUnlocker quando o caso de uso é crítico: você precisa de dados em tempo real (preços, inventário, listagens, conformidade regulatória...) e não pode aceitar latência de 10–20 segundos por solicitação, que o Rendering frequentemente impõe em alvos protegidos. O WebUnlocker permanece no modo de solicitação HTTP (sem execução de JS) com bypass anti-bot ajustado para retornar respostas em segundos, com 100% de sucesso em domínios aprovados.
Principais diferenças de relance
| Recurso | Crawler | Rendering | WebUnlocker |
|---|---|---|---|
| Execução de JavaScript | ❌ | ✅ | ❌ |
| Resiliência anti-bot | Básica (impressão digital) | Média | Muito alta (bypass de anti-bot empresarial) |
| Latência típica | Mais baixa | Média/Alta | Muito baixa; projetada para 100% de sucesso em domínios aprovados |
| Custo por solicitação | 1 crédito | 2 créditos | 3 créditos |
Explore a documentação
Conclusão
Use o Crawler quando precisar de velocidade, escala e o menor custo para páginas estáticas ou renderizadas no servidor e APIs. Escolha o Rendering quando o site depender de JavaScript no lado do cliente e você precisar de esperas cientes do DOM. Opte pelo WebUnlocker para propriedades estáticas ou renderizadas no servidor protegidas por sistemas anti-bot empresariais em domínios aprovados: ele oferece latência muito baixa com uma taxa de sucesso de 100%, sem executar JavaScript.