Saltar al contenido principal
Piloterr
LlamaIndex logo

Pilas de IA

Ingestión de datos web para LlamaIndex con Piloterr

Carga contenido web en vivo en pipelines de LlamaIndex mediante las API REST de Piloterr. JSON estructurado y Markdown de sitios protegidos, listos para fragmentación, incrustación y recuperación.

  • Lectores y herramientas personalizados sobre endpoints de Piloterr
  • JSON/Markdown limpio, sin paso de limpieza de HTML
  • Bypass de anti-bots para RAG en producción
  • Funciona con cualquier almacén de vectores compatible con LlamaIndex

De un vistazo

Lectores

cargadores personalizados

JSON

entrada estructurada

500

fuentes web

REST

API HTTP

Por qué conectar LlamaIndex

  • Cargadores de datos personalizados

    Crea lectores para LlamaIndex que obtengan páginas mediante Piloterr y devuelvan objetos Document con metadatos de texto limpios.

  • Motores de consulta

    Combina datos scrapeados con motores de consulta de LlamaIndex para preguntas y respuestas fundamentadas sobre contenido web en vivo.

  • Omite el análisis de HTML

    Piloterr devuelve campos estructurados: título, cuerpo, precio, metadatos, sin preprocesamiento con BeautifulSoup.

  • Fiabilidad en producción

    El bypass de anti-bots y los proxies gestionados garantizan que tu pipeline de ingestión no se rompa cuando los objetivos añadan Cloudflare.

Patrones LlamaIndex + Piloterr

Desde investigación puntual hasta actualización programada de índices.

  • Ingestión de documentos

    Obtén JSON, mapea campos a texto y metadatos de Document, indexa en el almacén de vectores.

  • Actualización programada

    Disparadores de cron o flujos de trabajo para volver a scrapeary actualizar documentos modificados.

  • Índices de múltiples fuentes

    Combina datos de SERP, noticias y productos en un único índice de LlamaIndex.

  • Consulta con herramientas

    Los motores de consulta llaman a Piloterr en tiempo real para preguntas que requieren datos actualizados.

¿Por qué no usar solo SimpleWebPageReader?

EnfoqueSolución propiaPiloterr
SimpleWebPageReaderBloqueado en sitios protegidosBypass gestionado
HTML crudoFragmentos ruidosos, mala recuperaciónCampos de texto estructurados
SPAs con mucho JSContenido vacíoRenderizado headless
MantenimientoLógica de scraper por sitio500 endpoints gestionados

Conecta LlamaIndex en cuatro pasos

  1. Paso 1

    Instala LlamaIndex

    pip install llama-index llama-index-llms-openai llama-index-embeddings-openai requests

  2. Paso 2

    Obtén tu clave API

    Configura PILOTERR_API_KEY en tu entorno.

    Obtén tu clave API
  3. Paso 3

    Crea un lector personalizado

    Hereda de BaseReader o usa una función que llame a Piloterr y devuelva Documents.

  4. Paso 4

    Construye el índice y consulta

    VectorStoreIndex.from_documents() y luego query_engine.query().

Recetas de flujos de trabajo

  • Índice de inteligencia competitiva

    Scrapeo diario de páginas de competidores → fragmentación → incrustación → preguntas y respuestas sobre precios y características.

  • RAG de monitoreo de noticias

    El lector de Google News actualiza el índice cada hora para el seguimiento de palabras clave del sector.

  • Búsqueda en catálogo de productos

    Datos de API de comercio electrónico indexados para descubrimiento semántico de productos.

  • Índice de preguntas y respuestas del centro de ayuda

    Ingesta documentos de ayuda mediante el lector de Piloterr, actualiza de noche y potencia la búsqueda semántica para soporte.

LlamaIndex vs LangChain vs CrewAI

  • Escenario

    RAG e indexación de documentos

    Recomendación: LlamaIndex

  • Escenario

    Agentes con llamadas a herramientas

    Recomendación: LangChain

  • Escenario

    Equipos multiagente

    Recomendación: CrewAI

  • Escenario

    ETL HTTP simple

    Recomendación: Python SDK

Ejemplo de lector para LlamaIndex

Carga artículos de Google News en un índice vectorial mediante Piloterr.

Python
import os
import requests
from llama_index.core import Document
from llama_index.core.readers.base import BaseReader

class PiloterrNewsReader(BaseReader):
    def __init__(self, api_key: str | None = None):
        self.api_key = api_key or os.environ["PILOTERR_API_KEY"]
        self.base = "https://api.piloterr.com/v2"

    def load_data(self, query: str, location: str = "Paris, FR") -> list[Document]:
        response = requests.post(
            f"{self.base}/google/news",
            headers={"x-api-key": self.api_key, "Content-Type": "application/json"},
            json={"query": query, "location": location, "page": 1},
            timeout=60,
        )
        response.raise_for_status()
        data = response.json()
        docs = []
        for item in data.get("organic_results", []):
            docs.append(Document(
                text=f"{item.get('title', '')}\n\n{item.get('snippet', '')}",
                metadata={"url": item.get("link"), "source": item.get("source")},
            ))
        return docs

Precios transparentes en créditos

Paga solo por solicitudes exitosas. Empieza con +500 créditos, luego escala con planes desde $49/mes.

Premium

$49/mes

18,000 créditos

Premium+

$99/mes

40,000 créditos

Startup

$249/mes

110,000 créditos

¿Listo para empezar?

Tu API de web scraping está a un clic. Comienza con +500 créditos, sin infraestructura que configurar, sin proxies que gestionar y sin necesidad de tarjeta de crédito.

  • +500 créditos
  • Sin tarjeta de crédito
  • Todos los endpoints incluidos