AI-Stacks
Webdaten-Ingestion für LlamaIndex mit Piloterr
Laden Sie Live-Webinhalte in LlamaIndex-Pipelines über Piloterr REST-APIs. Strukturiertes JSON und Markdown von geschützten Seiten, bereit für Chunking, Embedding und Retrieval.
- Benutzerdefinierte Reader und Tools über Piloterr-Endpunkte
- Sauberes JSON/Markdown, kein HTML-Bereinigungsschritt
- Anti-Bot-Umgehung für produktives RAG
- Funktioniert mit jedem Vektorspeicher, den LlamaIndex unterstützt
Auf einen Blick
Reader
Benutzerdefinierte Loader
JSON
Strukturierte Eingabe
500
Web-Quellen
REST
HTTP-API
Warum LlamaIndex verbinden?
Benutzerdefinierte Daten-Loader
Erstellen Sie LlamaIndex-Reader, die Seiten über Piloterr abrufen und Document-Objekte mit bereinigtem Text und Metadaten zurückgeben.
Abfrage-Engines
Kombinieren Sie gescrapte Daten mit LlamaIndex-Abfrage-Engines für fundierte Frage-Antwort-Systeme über Live-Webinhalte.
HTML-Parsing überspringen
Piloterr liefert strukturierte Felder wie Titel, Body, Preis und Metadaten – ohne Vorverarbeitung mit BeautifulSoup.
Produktionssicherheit
Anti-Bot-Umgehung und verwaltete Proxys sorgen dafür, dass Ihre Ingestions-Pipeline nicht ausfällt, wenn Ziele Cloudflare hinzufügen.
LlamaIndex + Piloterr Muster
Von einmaliger Recherche bis zur geplanten Index-Aktualisierung.
Dokumentenaufnahme
JSON abrufen, Felder auf Document-Text und Metadaten abbilden, in Vektorspeicher indexieren.
Geplante Aktualisierung
Cron oder Workflow-Trigger lösen erneutes Scraping aus und fügen geänderte Dokumente ein.
Multi-Quellen-Indizes
Kombinieren Sie SERP-, Nachrichten- und Produktdaten in einem einzigen LlamaIndex-Index.
Tool-unterstützte Abfrage
Abfrage-Engines rufen Piloterr bei Bedarf für Fragen mit aktuellen Daten auf.
Warum nicht nur SimpleWebPageReader verwenden?
| Ansatz | Eigene Lösung | Piloterr |
|---|---|---|
| SimpleWebPageReader | Blockiert auf geschützten Seiten | Verwaltete Umgehung |
| Roh-HTML | Unsaubere Chunks, schlechte Abfrageergebnisse | Strukturierte Textfelder |
| JS-lastige SPAs | Leerer Inhalt | Headless-Rendering |
| Wartung | Logik für jeden Site-Scraper | 500 verwaltete Endpunkte |
LlamaIndex in vier Schritten verbinden
Schritt 1
LlamaIndex installieren
pip install llama-index llama-index-llms-openai llama-index-embeddings-openai requests
Schritt 2
Ihren API-Schlüssel abrufen
Setzen Sie PILOTERR_API_KEY in Ihrer Umgebung.
Ihren API-Schlüssel abrufenSchritt 3
Einen benutzerdefinierten Reader erstellen
Erstellen Sie eine Unterklasse von BaseReader oder verwenden Sie eine Funktion, die Piloterr aufruft und Documents zurückgibt.
Schritt 4
Index erstellen und abfragen
VectorStoreIndex.from_documents() und dann query_engine.query().
Workflow-Rezepte
Wettbewerbsintelligenz-Index
Tägliches Scraping von Wettbewerberseiten → Chunking → Einbettung → Frage-Antwort-System über Preise und Funktionen.
Nachrichtenüberwachung mit RAG
Google News-Reader aktualisiert den Index stündlich für die Verfolgung von Branchen-Keywords.
Produktkatalogsuche
E-Commerce-API-Daten werden für semantische Produktsuche indexiert.
Hilfe-Center-Frage-Antwort-Index
Hilfe-Dokumente über Piloterr-Reader aufnehmen, nächtlich aktualisieren und semantische Suche für den Support ermöglichen.
LlamaIndex vs. LangChain vs. CrewAI
Szenario
RAG und Dokumentenindexierung
Empfehlung: LlamaIndex
Szenario
Tool-basierte Agenten
Empfehlung: LangChain
Szenario
Multi-Agenten-Teams
Empfehlung: CrewAI
Szenario
Einfaches HTTP-ETL
Empfehlung: Python SDK
LlamaIndex-Reader-Beispiel
Laden Sie Google News-Artikel über Piloterr in einen Vektorindex.
import os
import requests
from llama_index.core import Document
from llama_index.core.readers.base import BaseReader
class PiloterrNewsReader(BaseReader):
def __init__(self, api_key: str | None = None):
self.api_key = api_key or os.environ["PILOTERR_API_KEY"]
self.base = "https://api.piloterr.com/v2"
def load_data(self, query: str, location: str = "Paris, FR") -> list[Document]:
response = requests.post(
f"{self.base}/google/news",
headers={"x-api-key": self.api_key, "Content-Type": "application/json"},
json={"query": query, "location": location, "page": 1},
timeout=60,
)
response.raise_for_status()
data = response.json()
docs = []
for item in data.get("organic_results", []):
docs.append(Document(
text=f"{item.get('title', '')}\n\n{item.get('snippet', '')}",
metadata={"url": item.get("link"), "source": item.get("source")},
))
return docsTransparente Credit-Preise
Zahlen Sie nur für erfolgreiche Anfragen. Starten Sie mit +500 Credits, dann skalieren Sie mit Plänen ab 49 $/Monat.
Premium
$49/Monat
18,000 Credits
Premium+
$99/Monat
40,000 Credits
Startup
$249/Monat
110,000 Credits
Bereit loszulegen?
Ihre Web-Scraping-API ist nur einen Klick entfernt. Starten Sie mit +500 Credits, ohne Infrastruktur einrichten zu müssen, ohne Proxys zu verwalten und ohne Kreditkarte.
- +500 Credits
- Keine Kreditkarte erforderlich
- Alle Endpunkte enthalten