Pilas de IA
Ingestión de datos web para LlamaIndex con Piloterr
Carga contenido web en vivo en pipelines de LlamaIndex mediante las API REST de Piloterr. JSON estructurado y Markdown de sitios protegidos, listos para fragmentación, incrustación y recuperación.
- Lectores y herramientas personalizados sobre endpoints de Piloterr
- JSON/Markdown limpio, sin paso de limpieza de HTML
- Bypass de anti-bots para RAG en producción
- Funciona con cualquier almacén de vectores compatible con LlamaIndex
De un vistazo
Lectores
cargadores personalizados
JSON
entrada estructurada
500
fuentes web
REST
API HTTP
Por qué conectar LlamaIndex
Cargadores de datos personalizados
Crea lectores para LlamaIndex que obtengan páginas mediante Piloterr y devuelvan objetos Document con metadatos de texto limpios.
Motores de consulta
Combina datos scrapeados con motores de consulta de LlamaIndex para preguntas y respuestas fundamentadas sobre contenido web en vivo.
Omite el análisis de HTML
Piloterr devuelve campos estructurados: título, cuerpo, precio, metadatos, sin preprocesamiento con BeautifulSoup.
Fiabilidad en producción
El bypass de anti-bots y los proxies gestionados garantizan que tu pipeline de ingestión no se rompa cuando los objetivos añadan Cloudflare.
Patrones LlamaIndex + Piloterr
Desde investigación puntual hasta actualización programada de índices.
Ingestión de documentos
Obtén JSON, mapea campos a texto y metadatos de Document, indexa en el almacén de vectores.
Actualización programada
Disparadores de cron o flujos de trabajo para volver a scrapeary actualizar documentos modificados.
Índices de múltiples fuentes
Combina datos de SERP, noticias y productos en un único índice de LlamaIndex.
Consulta con herramientas
Los motores de consulta llaman a Piloterr en tiempo real para preguntas que requieren datos actualizados.
¿Por qué no usar solo SimpleWebPageReader?
| Enfoque | Solución propia | Piloterr |
|---|---|---|
| SimpleWebPageReader | Bloqueado en sitios protegidos | Bypass gestionado |
| HTML crudo | Fragmentos ruidosos, mala recuperación | Campos de texto estructurados |
| SPAs con mucho JS | Contenido vacío | Renderizado headless |
| Mantenimiento | Lógica de scraper por sitio | 500 endpoints gestionados |
Conecta LlamaIndex en cuatro pasos
Paso 1
Instala LlamaIndex
pip install llama-index llama-index-llms-openai llama-index-embeddings-openai requests
Paso 2
Obtén tu clave API
Configura PILOTERR_API_KEY en tu entorno.
Obtén tu clave APIPaso 3
Crea un lector personalizado
Hereda de BaseReader o usa una función que llame a Piloterr y devuelva Documents.
Paso 4
Construye el índice y consulta
VectorStoreIndex.from_documents() y luego query_engine.query().
Recetas de flujos de trabajo
Índice de inteligencia competitiva
Scrapeo diario de páginas de competidores → fragmentación → incrustación → preguntas y respuestas sobre precios y características.
RAG de monitoreo de noticias
El lector de Google News actualiza el índice cada hora para el seguimiento de palabras clave del sector.
Búsqueda en catálogo de productos
Datos de API de comercio electrónico indexados para descubrimiento semántico de productos.
Índice de preguntas y respuestas del centro de ayuda
Ingesta documentos de ayuda mediante el lector de Piloterr, actualiza de noche y potencia la búsqueda semántica para soporte.
LlamaIndex vs LangChain vs CrewAI
Escenario
RAG e indexación de documentos
Recomendación: LlamaIndex
Escenario
Agentes con llamadas a herramientas
Recomendación: LangChain
Escenario
Equipos multiagente
Recomendación: CrewAI
Escenario
ETL HTTP simple
Recomendación: Python SDK
Ejemplo de lector para LlamaIndex
Carga artículos de Google News en un índice vectorial mediante Piloterr.
import os
import requests
from llama_index.core import Document
from llama_index.core.readers.base import BaseReader
class PiloterrNewsReader(BaseReader):
def __init__(self, api_key: str | None = None):
self.api_key = api_key or os.environ["PILOTERR_API_KEY"]
self.base = "https://api.piloterr.com/v2"
def load_data(self, query: str, location: str = "Paris, FR") -> list[Document]:
response = requests.post(
f"{self.base}/google/news",
headers={"x-api-key": self.api_key, "Content-Type": "application/json"},
json={"query": query, "location": location, "page": 1},
timeout=60,
)
response.raise_for_status()
data = response.json()
docs = []
for item in data.get("organic_results", []):
docs.append(Document(
text=f"{item.get('title', '')}\n\n{item.get('snippet', '')}",
metadata={"url": item.get("link"), "source": item.get("source")},
))
return docsPrecios transparentes en créditos
Paga solo por solicitudes exitosas. Empieza con +500 créditos, luego escala con planes desde $49/mes.
Premium
$49/mes
18,000 créditos
Premium+
$99/mes
40,000 créditos
Startup
$249/mes
110,000 créditos
¿Listo para empezar?
Tu API de web scraping está a un clic. Comienza con +500 créditos, sin infraestructura que configurar, sin proxies que gestionar y sin necesidad de tarjeta de crédito.
- +500 créditos
- Sin tarjeta de crédito
- Todos los endpoints incluidos