Pilhas de IA
Ingestão de dados da web para o LlamaIndex com Piloterr
Carregue conteúdo da web ao vivo em pipelines do LlamaIndex por meio das APIs REST da Piloterr. JSON estruturado e Markdown de sites protegidos, prontos para chunking, embedding e recuperação.
- Leitores e ferramentas personalizados sobre endpoints da Piloterr
- JSON/Markdown limpos, sem etapa de limpeza de HTML
- Bypass de anti-bot para RAG em produção
- Funciona com qualquer armazenamento vetorial suportado pelo LlamaIndex
Visão geral
Leitores
carregadores personalizados
JSON
entrada estruturada
500
fontes da web
REST
API HTTP
Por que conectar LlamaIndex
Carregadores de dados personalizados
Crie readers do LlamaIndex que buscam páginas via Piloterr e retornam objetos Document com metadados e texto limpo.
Motores de consulta
Combine dados raspados com motores de consulta do LlamaIndex para perguntas e respostas fundamentadas em conteúdo web ao vivo.
Pule o parsing de HTML
Piloterr retorna campos estruturados, título, corpo, preço e metadados, sem pré-processamento com BeautifulSoup.
Confiabilidade em produção
Bypass de anti-bots e proxies gerenciados garantem que seu pipeline de ingestão não quebre quando os alvos adicionam Cloudflare.
Padrões LlamaIndex + Piloterr
Desde pesquisas pontuais até atualizações agendadas de índices.
Ingestão de documentos
Busque JSON, mapeie campos para texto e metadados do Document, indexe em um vector store.
Atualização agendada
Disparadores de cron ou workflow re-raspam e atualizam documentos alterados.
Índices multi-fonte
Combine dados de SERP, notícias e produtos em um único índice do LlamaIndex.
Consulta com ferramentas
Motores de consulta chamam Piloterr em tempo real para perguntas que necessitam de dados atualizados.
Por que não usar apenas o SimpleWebPageReader?
| Abordagem | Solução própria | Piloterr |
|---|---|---|
| SimpleWebPageReader | Bloqueado em sites protegidos | Bypass gerenciado |
| HTML bruto | Blocos ruidosos, recuperação ruim | Campos de texto estruturados |
| SPAs com muito JS | Conteúdo vazio | Renderização headless |
| Manutenção | Lógica de scraper por site | 500 endpoints gerenciados |
Conecte o LlamaIndex em quatro etapas
Passo 1
Instale o LlamaIndex
pip install llama-index llama-index-llms-openai llama-index-embeddings-openai requests
Passo 2
Obtenha sua chave de API
Defina PILOTERR_API_KEY no seu ambiente.
Obtenha sua chave de APIPasso 3
Crie um reader personalizado
Subclasse BaseReader ou use uma função que chama Piloterr e retorna Documents.
Passo 4
Crie o índice e consulte
VectorStoreIndex.from_documents() e depois query_engine.query().
Receitas de fluxo de trabalho
Índice de inteligência competitiva
Raspagem diária de páginas de concorrentes → divisão em blocos → incorporação → perguntas e respostas sobre preços e recursos.
Monitoramento de notícias com RAG
Reader do Google Notícias atualiza o índice a cada hora para rastreamento de palavras-chave do setor.
Busca em catálogo de produtos
Dados da API de e-commerce indexados para descoberta semântica de produtos.
Índice de perguntas e respostas do centro de ajuda
Ingira documentos de ajuda via reader do Piloterr, atualize diariamente e potencialize a busca semântica para suporte.
LlamaIndex vs LangChain vs CrewAI
Cenário
RAG e indexação de documentos
Recomendação: LlamaIndex
Cenário
Agentes com chamada de ferramentas
Recomendação: LangChain
Cenário
Equipes multiagentes
Recomendação: CrewAI
Cenário
ETL HTTP simples
Recomendação: SDK Python
Exemplo de reader do LlamaIndex
Carregue artigos do Google Notícias em um índice vetorial via Piloterr.
import os
import requests
from llama_index.core import Document
from llama_index.core.readers.base import BaseReader
class PiloterrNewsReader(BaseReader):
def __init__(self, api_key: str | None = None):
self.api_key = api_key or os.environ["PILOTERR_API_KEY"]
self.base = "https://api.piloterr.com/v2"
def load_data(self, query: str, location: str = "Paris, FR") -> list[Document]:
response = requests.post(
f"{self.base}/google/news",
headers={"x-api-key": self.api_key, "Content-Type": "application/json"},
json={"query": query, "location": location, "page": 1},
timeout=60,
)
response.raise_for_status()
data = response.json()
docs = []
for item in data.get("organic_results", []):
docs.append(Document(
text=f"{item.get('title', '')}\n\n{item.get('snippet', '')}",
metadata={"url": item.get("link"), "source": item.get("source")},
))
return docsPreços transparentes por crédito
Pague apenas por requisições bem-sucedidas. Comece com +500 créditos, depois escale com planos a partir de $49/mês.
Premium
$49/mês
18,000 créditos
Premium+
$99/mês
40,000 créditos
Startup
$249/mês
110,000 créditos
Pronto para começar?
Sua API de web scraping está a um clique. Comece com +500 créditos, sem infraestrutura para configurar, sem proxies para gerenciar e sem cartão de crédito necessário.
- +500 créditos
- Sem cartão de crédito
- Todos os endpoints incluídos