¿Puede LlamaIndex ingerir Markdown desde Piloterr?

Sí. Usa endpoints que devuelvan campos compatibles con Markdown o mapea directamente los campos de texto JSON a objetos Document.

¿Con qué frecuencia debo actualizar el índice?

Ajusta la frecuencia de actualización a la necesidad de frescura de los datos. Noticias: cada hora. Precios: diario. Usa trabajos programados que llamen a Piloterr y actualicen los documentos modificados.

¿Funciona esto con LlamaIndex Cloud?

Sí. Los lectores personalizados se ejecutan en tu pipeline independientemente de dónde esté alojado el índice.

Pilas de IA

Ingestión de datos web para LlamaIndex con Piloterr

Carga contenido web en vivo en pipelines de LlamaIndex mediante las API REST de Piloterr. JSON estructurado y Markdown de sitios protegidos, listos para fragmentación, incrustación y recuperación.

Empieza gratis (+500 créditos)Ver precios

Lectores y herramientas personalizados sobre endpoints de Piloterr
JSON/Markdown limpio, sin paso de limpieza de HTML
Bypass de anti-bots para RAG en producción
Funciona con cualquier almacén de vectores compatible con LlamaIndex

De un vistazo

Lectores

cargadores personalizados

JSON

entrada estructurada

500

fuentes web

REST

API HTTP

Por qué conectar LlamaIndex

Cargadores de datos personalizados
Crea lectores para LlamaIndex que obtengan páginas mediante Piloterr y devuelvan objetos Document con metadatos de texto limpios.
Motores de consulta
Combina datos scrapeados con motores de consulta de LlamaIndex para preguntas y respuestas fundamentadas sobre contenido web en vivo.
Omite el análisis de HTML
Piloterr devuelve campos estructurados: título, cuerpo, precio, metadatos, sin preprocesamiento con BeautifulSoup.
Fiabilidad en producción
El bypass de anti-bots y los proxies gestionados garantizan que tu pipeline de ingestión no se rompa cuando los objetivos añadan Cloudflare.

Patrones LlamaIndex + Piloterr

Desde investigación puntual hasta actualización programada de índices.

Ingestión de documentos
Obtén JSON, mapea campos a texto y metadatos de Document, indexa en el almacén de vectores.
Actualización programada
Disparadores de cron o flujos de trabajo para volver a scrapeary actualizar documentos modificados.
Índices de múltiples fuentes
Combina datos de SERP, noticias y productos en un único índice de LlamaIndex.
Consulta con herramientas
Los motores de consulta llaman a Piloterr en tiempo real para preguntas que requieren datos actualizados.

¿Por qué no usar solo SimpleWebPageReader?

Enfoque	Solución propia	Piloterr
SimpleWebPageReader	Bloqueado en sitios protegidos	Bypass gestionado
HTML crudo	Fragmentos ruidosos, mala recuperación	Campos de texto estructurados
SPAs con mucho JS	Contenido vacío	Renderizado headless
Mantenimiento	Lógica de scraper por sitio	500 endpoints gestionados

Conecta LlamaIndex en cuatro pasos

Paso 1
Instala LlamaIndex
pip install llama-index llama-index-llms-openai llama-index-embeddings-openai requests
Paso 2
Obtén tu clave API
Configura PILOTERR_API_KEY en tu entorno.
Obtén tu clave API
Paso 3
Crea un lector personalizado
Hereda de BaseReader o usa una función que llame a Piloterr y devuelva Documents.
Paso 4
Construye el índice y consulta
VectorStoreIndex.from_documents() y luego query_engine.query().

Recetas de flujos de trabajo

Índice de inteligencia competitiva
Scrapeo diario de páginas de competidores → fragmentación → incrustación → preguntas y respuestas sobre precios y características.
RAG de monitoreo de noticias
El lector de Google News actualiza el índice cada hora para el seguimiento de palabras clave del sector.
Búsqueda en catálogo de productos
Datos de API de comercio electrónico indexados para descubrimiento semántico de productos.
Índice de preguntas y respuestas del centro de ayuda
Ingesta documentos de ayuda mediante el lector de Piloterr, actualiza de noche y potencia la búsqueda semántica para soporte.

LlamaIndex vs LangChain vs CrewAI

Escenario
RAG e indexación de documentos
Recomendación: LlamaIndex
Escenario
Agentes con llamadas a herramientas
Recomendación: LangChain
Escenario
Equipos multiagente
Recomendación: CrewAI
Escenario
ETL HTTP simple
Recomendación: Python SDK

Ejemplo de lector para LlamaIndex

Carga artículos de Google News en un índice vectorial mediante Piloterr.

Explorar biblioteca de APIs

import os
import requests
from llama_index.core import Document
from llama_index.core.readers.base import BaseReader

class PiloterrNewsReader(BaseReader):
    def __init__(self, api_key: str | None = None):
        self.api_key = api_key or os.environ["PILOTERR_API_KEY"]
        self.base = "https://api.piloterr.com/v2"

    def load_data(self, query: str, location: str = "Paris, FR") -> list[Document]:
        response = requests.post(
            f"{self.base}/google/news",
            headers={"x-api-key": self.api_key, "Content-Type": "application/json"},
            json={"query": query, "location": location, "page": 1},
            timeout=60,
        )
        response.raise_for_status()
        data = response.json()
        docs = []
        for item in data.get("organic_results", []):
            docs.append(Document(
                text=f"{item.get('title', '')}\n\n{item.get('snippet', '')}",
                metadata={"url": item.get("link"), "source": item.get("source")},
            ))
        return docs

Ver también

LangChain

CrewAI

n8n

Make

Precios transparentes en créditos

Paga solo por solicitudes exitosas. Empieza con +500 créditos, luego escala con planes desde $49/mes.

Premium

$49/mes

18,000 créditos

Premium+

$99/mes

40,000 créditos

Startup

$249/mes

110,000 créditos

Ver todos los planes y modos de crédito →Estima tu uso mensual →

¿Listo para empezar?

Tu API de web scraping está a un clic. Comienza con +500 créditos, sin infraestructura que configurar, sin proxies que gestionar y sin necesidad de tarjeta de crédito.

+500 créditos
Sin tarjeta de crédito
Todos los endpoints incluidos

Empieza gratis (+500 créditos)Habla con un experto en datos

Ingestión de datos web para LlamaIndex con Piloterr

Por qué conectar LlamaIndex

Cargadores de datos personalizados

Motores de consulta

Omite el análisis de HTML

Fiabilidad en producción

Patrones LlamaIndex + Piloterr

Ingestión de documentos

Actualización programada

Índices de múltiples fuentes

Consulta con herramientas

¿Por qué no usar solo SimpleWebPageReader?

Conecta LlamaIndex en cuatro pasos

Instala LlamaIndex

Obtén tu clave API

Crea un lector personalizado

Construye el índice y consulta

Recetas de flujos de trabajo

Índice de inteligencia competitiva

RAG de monitoreo de noticias

Búsqueda en catálogo de productos

Índice de preguntas y respuestas del centro de ayuda

LlamaIndex vs LangChain vs CrewAI

RAG e indexación de documentos

Agentes con llamadas a herramientas

Equipos multiagente

ETL HTTP simple