Ir para o conteúdo principal
Piloterr
Voltar ao blog
10 de julho de 2025

Como Construir um Dataset de Funcionários de uma Empresa

Os dados se tornaram um dos ativos mais valiosos para qualquer empresa. Ter informações confiáveis e bem estruturadas sobre um negócio ou seus concorrentes pode proporcionar uma vantagem estratégica significativa. Neste tutorial, exploraremos como combinar a precisão dos Google Dorks com as capacidades de automação das APIs do Piloterr para coletar dados públicos de perfis do LinkedIn. O resultado final será um conjunto de dados estruturado em .json, pronto para análise.

Comece com a LinkedIn Company API ou explore os endpoints de scraping do LinkedIn.

Caso de uso

Gerar uma lista de funcionários de uma empresa específica para construir um conjunto de dados para fins de RH, esforços de recrutamento ou análise da estrutura organizacional.

Como funciona?

  1. Use Google Dorks para recuperar links de perfis do LinkedIn indexados
  2. Automatize a busca usando a Google Search API do Piloterr
  3. Extraia dados públicos de perfis do LinkedIn usando a LinkedIn Profile API do Piloterr
  4. Mescle todas as informações em um conjunto de dados limpo
Esquema do fluxo de trabalho com Excalidraw
Esquema do fluxo de trabalho com Excalidraw

Este tutorial é dividido em duas seções independentes que você pode seguir em qualquer ordem:

  • Guia passo a passo: Como usar Google Dorks e APIs do Piloterr.
  • Execução completa do projeto: Clone o repositório e execute o script completo.

Passo a Passo: Como Usar Google Dorks e APIs do Piloterr

Neste capítulo, aprenderemos como conectar o Google Dork com a API do Piloterr e o scraping de perfil do LinkedIn, passo a passo.

O que é um Google Dork e por que ele é poderoso?

Google Dorks são operadores de busca avançados que ajudam a filtrar resultados de pesquisa.

O Google já indexa bilhões de páginas, podemos aproveitar isso criando consultas inteligentes.

Construa um dork para listar perfis públicos do LinkedIn relacionados à Apple Inc.

Para testar e executar um Google Dork, precisamos apenas de uma barra de pesquisa do Google.

Vamos começar com a seguinte sintaxe de exemplo sobre como listar perfis públicos do LinkedIn relacionados a "Apple Inc."

A pesquisa:

Consulta Google Dork para perfis LinkedIn da Apple Inc.

Obtemos uma lista de pessoas que têm "Apple" em seu perfil do LinkedIn.

Não é mágica, vamos ver a decomposição da sintaxe para entender o que está acontecendo:

Google dork syntax breakdown

Pesquisar Perfis do LinkedIn usando a API de Busca do Google

Configurando a solicitação da API do Piloterr:

Uma vez que seu dork esteja pronto, o próximo passo é automatizar a busca

Para completar a solicitação:

  • Cole o Google Dork no campo de consulta
  • Adicione sua chave de API no cabeçalho x-api-key
  • Defina os parâmetros da solicitação (por exemplo, use page = 1 para buscar a primeira página)

Defina os parâmetros:

Execute a solicitação e imprima o resultado:

Parabéns, obtivemos nossos primeiros dados:

Primeira resposta da API Google Search da Piloterr

Os resultados da busca com o link do perfil estão armazenados na chave "organic_result".

💡 Dica: Explore mais parâmetros aqui: Documentação da API de Busca do Google do Piloterr

A API de Busca do Google retorna várias chaves como pagination, search_parameters, search_information e organic_results.

Mas estamos interessados apenas nos links de perfil encontrados em organic_results.

Vamos salvar o primeiro link em profile_url acessando results[0]['link']

Em seguida, envie esse link para a API de Perfil do LinkedIn do Piloterr usando o parâmetro de consulta.

Defina os parâmetros da solicitação

Faça a solicitação e imprima os resultados:

Execute a solicitação e imprima o resultado, e pronto! Agora você tem dados públicos de um perfil real do LinkedIn:

Resposta da API LinkedIn Profile da Piloterr com dados públicos do perfil

💡 Dica: Referência completa da API aqui: Documentação da API do LinkedIn do Piloterr

Clone o Projeto e Execute o Script Completo

Obtenha o projeto

Clone os repositórios

Página do repositório GitHub do scraper de funcionários LinkedIn por empresa

Configurar dependências:

Terminal instalando dependências Python com pip

Configurar sua chave de API

Copie o arquivo de credenciais de exemplo executando o comando:

Comando de terminal para copiar o arquivo de credenciais de exemplo

Edite ‘credential.py’ e cole sua chave de API (se você não tiver uma chave de API, precisará se registrar no Piloterr):

Edição de credential.py para colar a chave API da Piloterr

Escolha Sua Empresa-Alvo e Defina Limites de Resultados

Empresa:

A empresa-alvo padrão está definida como Apple Inc. no main.py. Você pode alterá-la conforme desejar:

Definição da empresa alvo em main.py

Limitar Resultados do Google:

A Busca do Google pode retornar várias páginas de resultados. Ajuste o intervalo de busca e o link para otimizar recursos e tempo:

Ajuste dos limites de páginas de resultados do Google Search em main.py

Execute o pipeline:

Isso irá:

  • Realizar uma busca com Google Dork para a empresa especificada
  • Buscar detalhes do perfil do LinkedIn
  • Exportá-los para output/linkedin_profile_dataset.json
Saída do pipeline exportando perfis LinkedIn para um arquivo JSON

Testar um Único Perfil para depuração (opcional)

Test() é uma função especial em main.py projetada para testar e depurar o fluxo de trabalho executando cada parte passo a passo.

Para executar o teste, basta usar:

Agora você está pronto para automatizar a extração de dados públicos de funcionários do LinkedIn com um script limpo e reutilizável.

Mais para ler

Guias e notícias sobre web scraping, proxies e extração de dados.

Web Scraping

Migrando do NetNut: o que fazer após a desativação da rede

O Google tomou medidas contra a rede de proxies NetNut/Popa em conjunto com o FBI e a Lumen. Como repensar sua stack de scraping sem gerenciar proxies por conta própria.

Josselin Liebe
Josselin Liebe
Ler
Web Scraping

€17,99 na França, €29,99 na Alemanha: monitoramento de preços por país

Mesma referência no ERP, preços diferentes por país: promoções, moedas e sortimento variam de uma loja para outra. Modelo de dados, exemplos de API e um script em Python para monitoramento confiável de preços.

Josselin Liebe
Josselin Liebe
Ler
Web Scraping

Melhor Scraper para Leboncoin 2026

Piloterr vs Apify vs lobstr.io para scraping no Leboncoin em 2026. Preços, endpoints e dados de produtos verificados a partir de fontes oficiais em 29 de junho de 2026 — incluindo a lacuna legal entre scraping público e autenticado.

Josselin Liebe
Josselin Liebe
Ler

Pronto para começar?

Sua API de web scraping está a um clique. Comece com +500 créditos, sem infraestrutura para configurar, sem proxies para gerenciar e sem cartão de crédito necessário.

  • +500 créditos
  • Sem cartão de crédito
  • Todos os endpoints incluídos