Saltar al contenido principal
Piloterr
Volver al blog
10 de julio de 2025

Cómo crear un conjunto de datos de empleados de una empresa

Los datos se han convertido en uno de los activos más valiosos para cualquier empresa. Tener información confiable y bien estructurada sobre un negocio o sus competidores puede proporcionar una ventaja estratégica significativa. En este tutorial, exploraremos cómo combinar la precisión de los Google Dorks con las capacidades de automatización de las APIs de Piloterr para recopilar datos públicos de perfiles de LinkedIn. El resultado final será un conjunto de datos .json estructurado, listo para su análisis.

Comienza con la API de Empresa de LinkedIn o explora los endpoints de scraping de LinkedIn.

Caso de uso

Generar una lista de empleados de una empresa específica para construir un conjunto de datos con fines de recursos humanos, esfuerzos de reclutamiento o análisis de la estructura organizacional.

¿Cómo funciona?

  1. Usar Google Dorks para recuperar enlaces de perfiles de LinkedIn indexados
  2. Automatizar la búsqueda utilizando la API de Búsqueda de Google de Piloterr
  3. Extraer datos públicos de perfiles de LinkedIn utilizando la API de Perfil de LinkedIn de Piloterr
  4. Fusionar toda la información en un conjunto de datos limpio
Esquema del flujo de trabajo con Excalidraw
Esquema del flujo de trabajo con Excalidraw

Este tutorial se divide en dos secciones independientes que puedes seguir en cualquier orden:

  • Guía paso a paso: Cómo usar Google Dorks y las APIs de Piloterr.
  • Ejecución completa del proyecto: Clona el repositorio y ejecuta el script completo.

Paso a Paso: Cómo Usar Google Dorks y las APIs de Piloterr

En este capítulo, aprenderemos cómo conectar Google Dork con la API de Piloterr y el scraping de perfiles de LinkedIn, paso a paso.

¿Qué es un Google Dork y por qué es poderoso?

Los Google Dorks son operadores de búsqueda avanzados que ayudan a filtrar los resultados de búsqueda.

Google ya indexa miles de millones de páginas, podemos aprovechar eso creando consultas inteligentes.

Construir un Dork para listar perfiles públicos de LinkedIn relacionados con Apple Inc.

Para probar y ejecutar un Google Dork, solo necesitamos una barra de búsqueda de Google.

Comencemos con la siguiente sintaxis de ejemplo sobre cómo listar perfiles públicos de LinkedIn relacionados con "Apple Inc."

La búsqueda:

Búsqueda Google Dork de perfiles LinkedIn de Apple Inc.

Obtenemos una lista de personas que tienen "Apple" en su perfil de LinkedIn.

No es magia, veamos el desglose de la sintaxis para entender qué está pasando:

Desglose de la sintaxis de Google Dork para búsqueda de perfiles LinkedIn

Buscar Perfiles de LinkedIn usando la API de Búsqueda de Google

Configuración de la solicitud de la API de Piloterr:

Una vez que tu Dork esté listo, el siguiente paso es automatizar la búsqueda

Para completar la solicitud:

  • Pega el Google Dork en el campo de consulta
  • Añade tu clave API en el encabezado x-api-key
  • Establece los parámetros de la solicitud (por ejemplo, usa page = 1 para obtener la primera página)

Establecer parámetros:

Ejecutar la solicitud e imprimir el resultado:

Felicidades, hemos obtenido nuestros primeros datos:

Primera respuesta de la API Google Search de Piloterr

Los resultados de la búsqueda con el enlace del perfil se almacenan en la clave "organic_result".

💡 Consejo: Explora más parámetros aquí: Documentación de la API de Búsqueda de Google de Piloterr

Extraer Datos del Perfil usando Enlaces de los Resultados de Búsqueda de Google

La API de Búsqueda de Google devuelve varias claves como pagination, search_parameters, search_information y organic_results.

Pero solo nos interesan los enlaces de perfil encontrados bajo organic_results.

Guardemos el primer enlace en profile_url accediendo a results[0]['link']

Luego, envía ese enlace a la API de Perfil de LinkedIn de Piloterr usando el parámetro de consulta.

Establecer parámetros de la solicitud

Hacer la solicitud e imprimir los resultados:

Ejecuta la solicitud e imprime el resultado, ¡y eso es todo! Ahora tienes datos públicos de un perfil real de LinkedIn:

Respuesta de la API LinkedIn Profile de Piloterr con datos públicos del perfil

💡 Consejo: Referencia completa de la API aquí: Documentación de la API de LinkedIn de Piloterr

Clonar el Proyecto y Ejecutar el Script Completo

Obtener el proyecto

Clonar repositorios

Página del repositorio GitHub del scraper de empleados de LinkedIn por empresa

Configurar dependencias:

Terminal instalando dependencias de Python con pip

Configurar tu clave API

Copia el archivo de credenciales de ejemplo ejecutando el comando:

Comando de terminal para copiar el archivo de credenciales de ejemplo

Edita ‘credential.py’ y pega tu clave API (si no tienes una clave API, necesitarás registrarte en Piloterr):

Edición de credential.py para pegar la clave API de Piloterr

Elige Tu Empresa Objetivo y Establece Límites de Resultados

Empresa:

La empresa objetivo predeterminada está configurada como Apple Inc. en main.py. Puedes cambiarla según desees:

Configuración de la empresa objetivo en main.py

Límite de Resultados de Google:

La Búsqueda de Google puede devolver varias páginas de resultados. Ajusta el rango de búsqueda y el enlace para optimizar recursos y tiempo:

Ajuste de los límites de páginas de resultados de Google Search en main.py

Ejecuta el pipeline:

Esto hará:

  • Realizar una búsqueda de Google Dork para la empresa especificada
  • Obtener detalles del perfil de LinkedIn
  • Exportarlos a output/linkedin_profile_dataset.json
Salida del pipeline exportando perfiles de LinkedIn a un archivo JSON

Prueba un Solo Perfil para depuración (opcional)

Test() es una función especial en main.py diseñada para probar y depurar el flujo de trabajo ejecutando cada parte paso a paso.

Para ejecutar la prueba, solo usa:

Ahora estás listo para automatizar la extracción de datos públicos de empleados de LinkedIn con un script limpio y reutilizable.

Más para leer

Guías y noticias sobre web scraping, proxies y extracción de datos.

Web Scraping

Migración desde NetNut: qué hacer tras el cierre de la red

Google tomó medidas contra la red de proxies NetNut/Popa junto al FBI y Lumen. Cómo replantear tu stack de scraping sin gestionar proxies por tu cuenta.

Josselin Liebe
Josselin Liebe
Leer
Web Scraping

€17.99 en Francia, €29.99 en Alemania: monitoreo de precios por país

Misma referencia en el ERP, diferentes precios por país: promociones, monedas y surtido varían de una tienda a otra. Modelo de datos, ejemplos de API y un script en Python para un monitoreo de precios confiable.

Josselin Liebe
Josselin Liebe
Leer
Web Scraping

Mejor Scraper para Leboncoin 2026

Piloterr vs Apify vs lobstr.io para scraping en Leboncoin en 2026. Precios, endpoints y datos de productos verificados de fuentes oficiales el 29 de junio de 2026 — incluyendo la brecha legal entre el scraping público y el autenticado.

Josselin Liebe
Josselin Liebe
Leer

¿Listo para empezar?

Tu API de web scraping está a un clic. Comienza con +500 créditos, sin infraestructura que configurar, sin proxies que gestionar y sin necesidad de tarjeta de crédito.

  • +500 créditos
  • Sin tarjeta de crédito
  • Todos los endpoints incluidos