Los datos se han convertido en uno de los activos más valiosos para cualquier empresa. Tener información confiable y bien estructurada sobre un negocio o sus competidores puede proporcionar una ventaja estratégica significativa. En este tutorial, exploraremos cómo combinar la precisión de los Google Dorks con las capacidades de automatización de las APIs de Piloterr para recopilar datos públicos de perfiles de LinkedIn. El resultado final será un conjunto de datos .json estructurado, listo para su análisis.
Comienza con la API de Empresa de LinkedIn o explora los endpoints de scraping de LinkedIn.
Caso de uso
Generar una lista de empleados de una empresa específica para construir un conjunto de datos con fines de recursos humanos, esfuerzos de reclutamiento o análisis de la estructura organizacional.
¿Cómo funciona?
- Usar Google Dorks para recuperar enlaces de perfiles de LinkedIn indexados
- Automatizar la búsqueda utilizando la API de Búsqueda de Google de Piloterr
- Extraer datos públicos de perfiles de LinkedIn utilizando la API de Perfil de LinkedIn de Piloterr
- Fusionar toda la información en un conjunto de datos limpio

Este tutorial se divide en dos secciones independientes que puedes seguir en cualquier orden:
- Guía paso a paso: Cómo usar Google Dorks y las APIs de Piloterr.
- Ejecución completa del proyecto: Clona el repositorio y ejecuta el script completo.
Paso a Paso: Cómo Usar Google Dorks y las APIs de Piloterr
En este capítulo, aprenderemos cómo conectar Google Dork con la API de Piloterr y el scraping de perfiles de LinkedIn, paso a paso.
¿Qué es un Google Dork y por qué es poderoso?
Los Google Dorks son operadores de búsqueda avanzados que ayudan a filtrar los resultados de búsqueda.
Google ya indexa miles de millones de páginas, podemos aprovechar eso creando consultas inteligentes.
Construir un Dork para listar perfiles públicos de LinkedIn relacionados con Apple Inc.
Para probar y ejecutar un Google Dork, solo necesitamos una barra de búsqueda de Google.
Comencemos con la siguiente sintaxis de ejemplo sobre cómo listar perfiles públicos de LinkedIn relacionados con "Apple Inc."
La búsqueda:

Obtenemos una lista de personas que tienen "Apple" en su perfil de LinkedIn.
No es magia, veamos el desglose de la sintaxis para entender qué está pasando:

Buscar Perfiles de LinkedIn usando la API de Búsqueda de Google
Configuración de la solicitud de la API de Piloterr:
Una vez que tu Dork esté listo, el siguiente paso es automatizar la búsqueda
Para completar la solicitud:
- Pega el Google Dork en el campo de consulta
- Añade tu clave API en el encabezado x-api-key
- Establece los parámetros de la solicitud (por ejemplo, usa page = 1 para obtener la primera página)
Establecer parámetros:
Ejecutar la solicitud e imprimir el resultado:
Felicidades, hemos obtenido nuestros primeros datos:

Los resultados de la búsqueda con el enlace del perfil se almacenan en la clave "organic_result".
💡 Consejo: Explora más parámetros aquí: Documentación de la API de Búsqueda de Google de Piloterr
Extraer Datos del Perfil usando Enlaces de los Resultados de Búsqueda de Google
La API de Búsqueda de Google devuelve varias claves como pagination, search_parameters, search_information y organic_results.
Pero solo nos interesan los enlaces de perfil encontrados bajo organic_results.
Guardemos el primer enlace en profile_url accediendo a results[0]['link']
Luego, envía ese enlace a la API de Perfil de LinkedIn de Piloterr usando el parámetro de consulta.
Establecer parámetros de la solicitud
Hacer la solicitud e imprimir los resultados:
Ejecuta la solicitud e imprime el resultado, ¡y eso es todo! Ahora tienes datos públicos de un perfil real de LinkedIn:

💡 Consejo: Referencia completa de la API aquí: Documentación de la API de LinkedIn de Piloterr
Clonar el Proyecto y Ejecutar el Script Completo
Obtener el proyecto

Configurar dependencias:

Configurar tu clave API
Copia el archivo de credenciales de ejemplo ejecutando el comando:

Edita ‘credential.py’ y pega tu clave API (si no tienes una clave API, necesitarás registrarte en Piloterr):

Elige Tu Empresa Objetivo y Establece Límites de Resultados
Empresa:
La empresa objetivo predeterminada está configurada como Apple Inc. en main.py. Puedes cambiarla según desees:

Límite de Resultados de Google:
La Búsqueda de Google puede devolver varias páginas de resultados. Ajusta el rango de búsqueda y el enlace para optimizar recursos y tiempo:

Ejecuta el pipeline:
Esto hará:
- Realizar una búsqueda de Google Dork para la empresa especificada
- Obtener detalles del perfil de LinkedIn
- Exportarlos a
output/linkedin_profile_dataset.json

Prueba un Solo Perfil para depuración (opcional)
Test() es una función especial en main.py diseñada para probar y depurar el flujo de trabajo ejecutando cada parte paso a paso.
Para ejecutar la prueba, solo usa:
Ahora estás listo para automatizar la extracción de datos públicos de empleados de LinkedIn con un script limpio y reutilizable.