Les données sont devenues l'un des actifs les plus précieux pour toute entreprise. Disposer d'informations fiables et bien structurées sur une entreprise ou ses concurrents peut offrir un avantage stratégique significatif. Dans ce tutoriel, nous explorerons comment combiner la précision des Google Dorks avec les capacités d'automatisation des API Piloterr pour collecter des données publiques de profils LinkedIn. Le résultat final sera un jeu de données .json structuré, prêt pour l'analyse.
Commencez avec l'API LinkedIn Company ou explorez les endpoints LinkedIn scraping.
Cas d'usage
**Générer une liste d'employés d'une entreprise spécifique pour construire un jeu de données à des fins RH, de recrutement ou d'analyse de la structure organisationnelle.
Comment ça fonctionne ?
- Utiliser les Google Dorks pour récupérer les liens de profils LinkedIn indexés
- Automatiser la recherche via l'API Piloterr Google Search
- Extraire les données publiques des profils LinkedIn via l'API Piloterr LinkedIn Profile
- Fusionner toutes les informations dans un jeu de données propre

Ce tutoriel est divisé en deux sections autonomes que vous pouvez suivre dans n'importe quel ordre :
- Guide pas à pas : comment utiliser les Google Dorks et les API Piloterr.
- Exécution complète du projet : cloner le dépôt et exécuter le script complet.
Pas à pas : comment utiliser les Google Dorks et les API Piloterr
Dans ce chapitre, nous apprendrons à connecter un Google dork avec l'API Piloterr et le scraping de profils LinkedIn, étape par étape.
Qu'est-ce qu'un Google Dork, et pourquoi est-il puissant ?
Les Google Dorks sont des opérateurs de recherche avancés qui permettent de filtrer les résultats de recherche.
Google indexe déjà des milliards de pages ; nous pouvons en tirer parti en construisant des requêtes intelligentes.
Construire un dork pour lister les profils LinkedIn publics liés à Apple Inc.
Pour tester et exécuter un Google dork, il suffit d'une barre de recherche Google.
Commençons par la syntaxe suivante pour lister les profils LinkedIn publics liés à « Apple Inc. »
La recherche :

Le résultat :

Nous obtenons une liste de personnes ayant « Apple » dans leur profil LinkedIn.
Ce n'est pas de la magie ; décomposons la syntaxe pour comprendre ce qui se passe :

Rechercher des profils LinkedIn via l'API Google Search
Configuration de la requête API Piloterr :
Une fois votre dork prêt, l'étape suivante consiste à automatiser la recherche
Pour compléter la requête :
- Collez le Google Dork dans le champ query
- Ajoutez votre clé API dans l'en-tête x-api-key
- Définissez les paramètres de requête (par ex. page = 1 pour récupérer la première page)
Définir les paramètres :
Exécuter la requête et afficher le résultat :
Félicitations, nous obtenons nos premières données :

Les résultats de recherche avec les liens de profil sont stockés dans la clé « organic_result ».
💡 Astuce : explorez plus de paramètres ici : documentation API Google Search Piloterr
Extraire les données de profil via les liens du résultat Google Search
L'API Google Search retourne plusieurs clés telles que pagination, search_parameters, search_information et organic_results.
Mais nous ne nous intéressons qu'aux liens de profil trouvés sous organic_results.
Enregistrons le premier lien dans profile_url en accédant à results[0]['link']
Ensuite, envoyez ce lien à l'API LinkedIn Profile de Piloterr via le paramètre query.
Définir les paramètres de requête
Effectuer la requête et afficher les résultats :
Exécutez la requête et affichez le résultat: voilà ! Vous disposez désormais de données publiques d'un profil LinkedIn réel :

💡 Astuce : référence API complète ici : documentation API LinkedIn Piloterr
Cloner le projet et exécuter le script complet
Obtenir le projet

Configurer les dépendances :

Configurer votre clé API
Copiez le fichier d'exemple de credentials en exécutant la commande :

Modifiez « credential.py » et collez votre clé API (si vous n'avez pas de clé API, vous devrez vous inscrire sur Piloterr) :

Choisir l'entreprise cible et définir les limites de résultats
Entreprise :
L'entreprise cible par défaut est Apple Inc. dans main.py. Vous pouvez la modifier à votre convenance :

Limiter les résultats Google :
Google Search peut retourner plusieurs pages de résultats. Ajustez la plage de recherche et les liens pour optimiser les ressources et le temps :

Exécuter le pipeline :
Cela va :
- Effectuer une recherche Google Dork pour l'entreprise spécifiée
- Récupérer les détails des profils LinkedIn
- Les exporter dans
output/linkedin_profile_dataset.json

Tester un profil unique pour le débogage (optionnel)
Test() est une fonction spéciale dans main.py conçue pour tester et déboguer le workflow en exécutant chaque partie étape par étape.
Pour lancer le test, utilisez simplement :
Vous êtes maintenant prêt à automatiser l'extraction de données publiques d'employés LinkedIn avec un script propre et réutilisable.