¿Qué es el fingerprinting del navegador?
Los sitios web identifican navegadores combinando señales de TLS, HTTP/2, orden de headers, canvas, WebGL y runtime. Los scrapers que solo cambian el User-Agent suelen ser bloqueados porque la huella digital en la red aún parece Node.js o automatización.
A continuación: sitios de prueba, bibliotecas e investigaciones que utilizamos junto con la caja de herramientas de fingerprinting de Piloterr.
Sitios de prueba
Captura líneas base y compáralas con la configuración de tu scraper:
- tls.peet.ws, captura TLS + HTTP/2 (pega el JSON en nuestro Analizador de Capturas TLS)
- tls3.peet.ws, API HTTP/3
- AmIUnique
- PixelScan
- BrowserLeaks
- bot-detector, fugas de CDP/automatización (combínalo con Verificador de Señales Headless)
- DeviceAndBrowserInfo
Caja de herramientas de Piloterr
Herramientas solo para navegador para decodificar e inspeccionar capturas, complementan los sitios anteriores:
- Analizador de Capturas TLS, analiza el JSON de tls.peet.ws
/api/all - Decodificador JA4
- Decodificador HTTP/2 Akamai
- Generador de Headers de Solicitud para Chrome
- Verificador de Señales Headless
- Informe de Huella Digital del Navegador, señales locales de canvas/WebGL (educativo; no equivalente a FingerprintJS)
Bibliotecas de impersonación TLS
Clientes de código abierto que emulan handshakes TLS de navegadores:
Bibliotecas de fingerprinting del navegador
Implementaciones de referencia y proyectos de investigación:
- FingerprintJS
- CreepJS
- salesforce/ja3, fingerprinting TLS JA3
- FingerprintJS BotD
Investigaciones clave
- Fingerprinting de red JA4+ (FoxIO)
- Salesforce: Fingerprinting TLS con JA3
- Comprendiendo el fingerprinting HTTP/2
- Detección de navegadores headless (Antoine Vastel)
Guías de Piloterr
Artículos sobre clientes HTTP que utilizamos en flujos de trabajo de scraping:
- hellojs vs undici, TLS/JA4 en Node.js
- Wreq, relacionado con reqwest-impersonate (mismo autor)
- RNet, bindings de Python para el motor wreq
Productos de Piloterr
- Bypass anti-bot, emulación TLS y de navegador gestionada para scrapers
- Bypass WAF, evita Cloudflare, Akamai y WAFs similares
- Navegador headless, páginas renderizadas con huellas digitales realistas