O LlamaIndex pode ingerir Markdown do Piloterr?

Sim. Use endpoints que retornam campos compatíveis com Markdown ou mapeie campos de texto JSON diretamente para objetos Document.

Com que frequência devo atualizar o índice?

Ajuste a frequência de atualização de acordo com a necessidade de atualização dos dados. Notícias: a cada hora. Preços: diariamente. Use jobs agendados chamando Piloterr e atualizando documentos alterados.

Isso funciona com o LlamaIndex Cloud?

Sim. Readers personalizados são executados no seu pipeline, independentemente de onde o índice está hospedado.

Pilhas de IA

Ingestão de dados da web para o LlamaIndex com Piloterr

Carregue conteúdo da web ao vivo em pipelines do LlamaIndex por meio das APIs REST da Piloterr. JSON estruturado e Markdown de sites protegidos, prontos para chunking, embedding e recuperação.

Comece grátis (+500 créditos)Ver preços

Leitores e ferramentas personalizados sobre endpoints da Piloterr
JSON/Markdown limpos, sem etapa de limpeza de HTML
Bypass de anti-bot para RAG em produção
Funciona com qualquer armazenamento vetorial suportado pelo LlamaIndex

Visão geral

Leitores

carregadores personalizados

JSON

entrada estruturada

500

fontes da web

REST

API HTTP

Por que conectar LlamaIndex

Carregadores de dados personalizados
Crie readers do LlamaIndex que buscam páginas via Piloterr e retornam objetos Document com metadados e texto limpo.
Motores de consulta
Combine dados raspados com motores de consulta do LlamaIndex para perguntas e respostas fundamentadas em conteúdo web ao vivo.
Pule o parsing de HTML
Piloterr retorna campos estruturados, título, corpo, preço e metadados, sem pré-processamento com BeautifulSoup.
Confiabilidade em produção
Bypass de anti-bots e proxies gerenciados garantem que seu pipeline de ingestão não quebre quando os alvos adicionam Cloudflare.

Padrões LlamaIndex + Piloterr

Desde pesquisas pontuais até atualizações agendadas de índices.

Ingestão de documentos
Busque JSON, mapeie campos para texto e metadados do Document, indexe em um vector store.
Atualização agendada
Disparadores de cron ou workflow re-raspam e atualizam documentos alterados.
Índices multi-fonte
Combine dados de SERP, notícias e produtos em um único índice do LlamaIndex.
Consulta com ferramentas
Motores de consulta chamam Piloterr em tempo real para perguntas que necessitam de dados atualizados.

Por que não usar apenas o SimpleWebPageReader?

Abordagem	Solução própria	Piloterr
SimpleWebPageReader	Bloqueado em sites protegidos	Bypass gerenciado
HTML bruto	Blocos ruidosos, recuperação ruim	Campos de texto estruturados
SPAs com muito JS	Conteúdo vazio	Renderização headless
Manutenção	Lógica de scraper por site	500 endpoints gerenciados

Conecte o LlamaIndex em quatro etapas

Passo 1
Instale o LlamaIndex
pip install llama-index llama-index-llms-openai llama-index-embeddings-openai requests
Passo 2
Obtenha sua chave de API
Defina PILOTERR_API_KEY no seu ambiente.
Obtenha sua chave de API
Passo 3
Crie um reader personalizado
Subclasse BaseReader ou use uma função que chama Piloterr e retorna Documents.
Passo 4
Crie o índice e consulte
VectorStoreIndex.from_documents() e depois query_engine.query().

Receitas de fluxo de trabalho

Índice de inteligência competitiva
Raspagem diária de páginas de concorrentes → divisão em blocos → incorporação → perguntas e respostas sobre preços e recursos.
Monitoramento de notícias com RAG
Reader do Google Notícias atualiza o índice a cada hora para rastreamento de palavras-chave do setor.
Busca em catálogo de produtos
Dados da API de e-commerce indexados para descoberta semântica de produtos.
Índice de perguntas e respostas do centro de ajuda
Ingira documentos de ajuda via reader do Piloterr, atualize diariamente e potencialize a busca semântica para suporte.

LlamaIndex vs LangChain vs CrewAI

Cenário
RAG e indexação de documentos
Recomendação: LlamaIndex
Cenário
Agentes com chamada de ferramentas
Recomendação: LangChain
Cenário
Equipes multiagentes
Recomendação: CrewAI
Cenário
ETL HTTP simples
Recomendação: SDK Python

Exemplo de reader do LlamaIndex

Carregue artigos do Google Notícias em um índice vetorial via Piloterr.

Explorar biblioteca de APIs

import os
import requests
from llama_index.core import Document
from llama_index.core.readers.base import BaseReader

class PiloterrNewsReader(BaseReader):
    def __init__(self, api_key: str | None = None):
        self.api_key = api_key or os.environ["PILOTERR_API_KEY"]
        self.base = "https://api.piloterr.com/v2"

    def load_data(self, query: str, location: str = "Paris, FR") -> list[Document]:
        response = requests.post(
            f"{self.base}/google/news",
            headers={"x-api-key": self.api_key, "Content-Type": "application/json"},
            json={"query": query, "location": location, "page": 1},
            timeout=60,
        )
        response.raise_for_status()
        data = response.json()
        docs = []
        for item in data.get("organic_results", []):
            docs.append(Document(
                text=f"{item.get('title', '')}\n\n{item.get('snippet', '')}",
                metadata={"url": item.get("link"), "source": item.get("source")},
            ))
        return docs

Veja também

LangChain

CrewAI

n8n

Make

Preços transparentes por crédito

Pague apenas por requisições bem-sucedidas. Comece com +500 créditos, depois escale com planos a partir de $49/mês.

Premium

$49/mês

18,000 créditos

Premium+

$99/mês

40,000 créditos

Startup

$249/mês

110,000 créditos

Ver todos os planos e modos de crédito →Estime seu uso mensal →

Pronto para começar?

Sua API de web scraping está a um clique. Comece com +500 créditos, sem infraestrutura para configurar, sem proxies para gerenciar e sem cartão de crédito necessário.

+500 créditos
Sem cartão de crédito
Todos os endpoints incluídos

Comece grátis (+500 créditos)Fale com um especialista em dados

Ingestão de dados da web para o LlamaIndex com Piloterr

Por que conectar LlamaIndex

Carregadores de dados personalizados

Motores de consulta

Pule o parsing de HTML

Confiabilidade em produção

Padrões LlamaIndex + Piloterr

Ingestão de documentos

Atualização agendada

Índices multi-fonte

Consulta com ferramentas

Por que não usar apenas o SimpleWebPageReader?

Conecte o LlamaIndex em quatro etapas

Instale o LlamaIndex

Obtenha sua chave de API

Crie um reader personalizado

Crie o índice e consulte

Receitas de fluxo de trabalho

Índice de inteligência competitiva

Monitoramento de notícias com RAG

Busca em catálogo de produtos

Índice de perguntas e respostas do centro de ajuda

LlamaIndex vs LangChain vs CrewAI

RAG e indexação de documentos

Agentes com chamada de ferramentas

Equipes multiagentes

ETL HTTP simples