Ir para o conteúdo principal
Piloterr
LlamaIndex logo

Pilhas de IA

Ingestão de dados da web para o LlamaIndex com Piloterr

Carregue conteúdo da web ao vivo em pipelines do LlamaIndex por meio das APIs REST da Piloterr. JSON estruturado e Markdown de sites protegidos, prontos para chunking, embedding e recuperação.

  • Leitores e ferramentas personalizados sobre endpoints da Piloterr
  • JSON/Markdown limpos, sem etapa de limpeza de HTML
  • Bypass de anti-bot para RAG em produção
  • Funciona com qualquer armazenamento vetorial suportado pelo LlamaIndex

Visão geral

Leitores

carregadores personalizados

JSON

entrada estruturada

500

fontes da web

REST

API HTTP

Por que conectar LlamaIndex

  • Carregadores de dados personalizados

    Crie readers do LlamaIndex que buscam páginas via Piloterr e retornam objetos Document com metadados e texto limpo.

  • Motores de consulta

    Combine dados raspados com motores de consulta do LlamaIndex para perguntas e respostas fundamentadas em conteúdo web ao vivo.

  • Pule o parsing de HTML

    Piloterr retorna campos estruturados, título, corpo, preço e metadados, sem pré-processamento com BeautifulSoup.

  • Confiabilidade em produção

    Bypass de anti-bots e proxies gerenciados garantem que seu pipeline de ingestão não quebre quando os alvos adicionam Cloudflare.

Padrões LlamaIndex + Piloterr

Desde pesquisas pontuais até atualizações agendadas de índices.

  • Ingestão de documentos

    Busque JSON, mapeie campos para texto e metadados do Document, indexe em um vector store.

  • Atualização agendada

    Disparadores de cron ou workflow re-raspam e atualizam documentos alterados.

  • Índices multi-fonte

    Combine dados de SERP, notícias e produtos em um único índice do LlamaIndex.

  • Consulta com ferramentas

    Motores de consulta chamam Piloterr em tempo real para perguntas que necessitam de dados atualizados.

Por que não usar apenas o SimpleWebPageReader?

AbordagemSolução própriaPiloterr
SimpleWebPageReaderBloqueado em sites protegidosBypass gerenciado
HTML brutoBlocos ruidosos, recuperação ruimCampos de texto estruturados
SPAs com muito JSConteúdo vazioRenderização headless
ManutençãoLógica de scraper por site500 endpoints gerenciados

Conecte o LlamaIndex em quatro etapas

  1. Passo 1

    Instale o LlamaIndex

    pip install llama-index llama-index-llms-openai llama-index-embeddings-openai requests

  2. Passo 2

    Obtenha sua chave de API

    Defina PILOTERR_API_KEY no seu ambiente.

    Obtenha sua chave de API
  3. Passo 3

    Crie um reader personalizado

    Subclasse BaseReader ou use uma função que chama Piloterr e retorna Documents.

  4. Passo 4

    Crie o índice e consulte

    VectorStoreIndex.from_documents() e depois query_engine.query().

Receitas de fluxo de trabalho

  • Índice de inteligência competitiva

    Raspagem diária de páginas de concorrentes → divisão em blocos → incorporação → perguntas e respostas sobre preços e recursos.

  • Monitoramento de notícias com RAG

    Reader do Google Notícias atualiza o índice a cada hora para rastreamento de palavras-chave do setor.

  • Busca em catálogo de produtos

    Dados da API de e-commerce indexados para descoberta semântica de produtos.

  • Índice de perguntas e respostas do centro de ajuda

    Ingira documentos de ajuda via reader do Piloterr, atualize diariamente e potencialize a busca semântica para suporte.

LlamaIndex vs LangChain vs CrewAI

  • Cenário

    RAG e indexação de documentos

    Recomendação: LlamaIndex

  • Cenário

    Agentes com chamada de ferramentas

    Recomendação: LangChain

  • Cenário

    Equipes multiagentes

    Recomendação: CrewAI

  • Cenário

    ETL HTTP simples

    Recomendação: SDK Python

Exemplo de reader do LlamaIndex

Carregue artigos do Google Notícias em um índice vetorial via Piloterr.

Python
import os
import requests
from llama_index.core import Document
from llama_index.core.readers.base import BaseReader

class PiloterrNewsReader(BaseReader):
    def __init__(self, api_key: str | None = None):
        self.api_key = api_key or os.environ["PILOTERR_API_KEY"]
        self.base = "https://api.piloterr.com/v2"

    def load_data(self, query: str, location: str = "Paris, FR") -> list[Document]:
        response = requests.post(
            f"{self.base}/google/news",
            headers={"x-api-key": self.api_key, "Content-Type": "application/json"},
            json={"query": query, "location": location, "page": 1},
            timeout=60,
        )
        response.raise_for_status()
        data = response.json()
        docs = []
        for item in data.get("organic_results", []):
            docs.append(Document(
                text=f"{item.get('title', '')}\n\n{item.get('snippet', '')}",
                metadata={"url": item.get("link"), "source": item.get("source")},
            ))
        return docs

Preços transparentes por crédito

Pague apenas por requisições bem-sucedidas. Comece com +500 créditos, depois escale com planos a partir de $49/mês.

Premium

$49/mês

18,000 créditos

Premium+

$99/mês

40,000 créditos

Startup

$249/mês

110,000 créditos

Pronto para começar?

Sua API de web scraping está a um clique. Comece com +500 créditos, sem infraestrutura para configurar, sem proxies para gerenciar e sem cartão de crédito necessário.

  • +500 créditos
  • Sem cartão de crédito
  • Todos os endpoints incluídos