Zum Hauptinhalt springen
Piloterr
LlamaIndex logo

AI-Stacks

Webdaten-Ingestion für LlamaIndex mit Piloterr

Laden Sie Live-Webinhalte in LlamaIndex-Pipelines über Piloterr REST-APIs. Strukturiertes JSON und Markdown von geschützten Seiten, bereit für Chunking, Embedding und Retrieval.

  • Benutzerdefinierte Reader und Tools über Piloterr-Endpunkte
  • Sauberes JSON/Markdown, kein HTML-Bereinigungsschritt
  • Anti-Bot-Umgehung für produktives RAG
  • Funktioniert mit jedem Vektorspeicher, den LlamaIndex unterstützt

Auf einen Blick

Reader

Benutzerdefinierte Loader

JSON

Strukturierte Eingabe

500

Web-Quellen

REST

HTTP-API

Warum LlamaIndex verbinden?

  • Benutzerdefinierte Daten-Loader

    Erstellen Sie LlamaIndex-Reader, die Seiten über Piloterr abrufen und Document-Objekte mit bereinigtem Text und Metadaten zurückgeben.

  • Abfrage-Engines

    Kombinieren Sie gescrapte Daten mit LlamaIndex-Abfrage-Engines für fundierte Frage-Antwort-Systeme über Live-Webinhalte.

  • HTML-Parsing überspringen

    Piloterr liefert strukturierte Felder wie Titel, Body, Preis und Metadaten – ohne Vorverarbeitung mit BeautifulSoup.

  • Produktionssicherheit

    Anti-Bot-Umgehung und verwaltete Proxys sorgen dafür, dass Ihre Ingestions-Pipeline nicht ausfällt, wenn Ziele Cloudflare hinzufügen.

LlamaIndex + Piloterr Muster

Von einmaliger Recherche bis zur geplanten Index-Aktualisierung.

  • Dokumentenaufnahme

    JSON abrufen, Felder auf Document-Text und Metadaten abbilden, in Vektorspeicher indexieren.

  • Geplante Aktualisierung

    Cron oder Workflow-Trigger lösen erneutes Scraping aus und fügen geänderte Dokumente ein.

  • Multi-Quellen-Indizes

    Kombinieren Sie SERP-, Nachrichten- und Produktdaten in einem einzigen LlamaIndex-Index.

  • Tool-unterstützte Abfrage

    Abfrage-Engines rufen Piloterr bei Bedarf für Fragen mit aktuellen Daten auf.

Warum nicht nur SimpleWebPageReader verwenden?

AnsatzEigene LösungPiloterr
SimpleWebPageReaderBlockiert auf geschützten SeitenVerwaltete Umgehung
Roh-HTMLUnsaubere Chunks, schlechte AbfrageergebnisseStrukturierte Textfelder
JS-lastige SPAsLeerer InhaltHeadless-Rendering
WartungLogik für jeden Site-Scraper500 verwaltete Endpunkte

LlamaIndex in vier Schritten verbinden

  1. Schritt 1

    LlamaIndex installieren

    pip install llama-index llama-index-llms-openai llama-index-embeddings-openai requests

  2. Schritt 2

    Ihren API-Schlüssel abrufen

    Setzen Sie PILOTERR_API_KEY in Ihrer Umgebung.

    Ihren API-Schlüssel abrufen
  3. Schritt 3

    Einen benutzerdefinierten Reader erstellen

    Erstellen Sie eine Unterklasse von BaseReader oder verwenden Sie eine Funktion, die Piloterr aufruft und Documents zurückgibt.

  4. Schritt 4

    Index erstellen und abfragen

    VectorStoreIndex.from_documents() und dann query_engine.query().

Workflow-Rezepte

  • Wettbewerbsintelligenz-Index

    Tägliches Scraping von Wettbewerberseiten → Chunking → Einbettung → Frage-Antwort-System über Preise und Funktionen.

  • Nachrichtenüberwachung mit RAG

    Google News-Reader aktualisiert den Index stündlich für die Verfolgung von Branchen-Keywords.

  • Produktkatalogsuche

    E-Commerce-API-Daten werden für semantische Produktsuche indexiert.

  • Hilfe-Center-Frage-Antwort-Index

    Hilfe-Dokumente über Piloterr-Reader aufnehmen, nächtlich aktualisieren und semantische Suche für den Support ermöglichen.

LlamaIndex vs. LangChain vs. CrewAI

  • Szenario

    RAG und Dokumentenindexierung

    Empfehlung: LlamaIndex

  • Szenario

    Tool-basierte Agenten

    Empfehlung: LangChain

  • Szenario

    Multi-Agenten-Teams

    Empfehlung: CrewAI

  • Szenario

    Einfaches HTTP-ETL

    Empfehlung: Python SDK

LlamaIndex-Reader-Beispiel

Laden Sie Google News-Artikel über Piloterr in einen Vektorindex.

Python
import os
import requests
from llama_index.core import Document
from llama_index.core.readers.base import BaseReader

class PiloterrNewsReader(BaseReader):
    def __init__(self, api_key: str | None = None):
        self.api_key = api_key or os.environ["PILOTERR_API_KEY"]
        self.base = "https://api.piloterr.com/v2"

    def load_data(self, query: str, location: str = "Paris, FR") -> list[Document]:
        response = requests.post(
            f"{self.base}/google/news",
            headers={"x-api-key": self.api_key, "Content-Type": "application/json"},
            json={"query": query, "location": location, "page": 1},
            timeout=60,
        )
        response.raise_for_status()
        data = response.json()
        docs = []
        for item in data.get("organic_results", []):
            docs.append(Document(
                text=f"{item.get('title', '')}\n\n{item.get('snippet', '')}",
                metadata={"url": item.get("link"), "source": item.get("source")},
            ))
        return docs

Transparente Credit-Preise

Zahlen Sie nur für erfolgreiche Anfragen. Starten Sie mit +500 Credits, dann skalieren Sie mit Plänen ab 49 $/Monat.

Premium

$49/Monat

18,000 Credits

Premium+

$99/Monat

40,000 Credits

Startup

$249/Monat

110,000 Credits

Bereit loszulegen?

Ihre Web-Scraping-API ist nur einen Klick entfernt. Starten Sie mit +500 Credits, ohne Infrastruktur einrichten zu müssen, ohne Proxys zu verwalten und ohne Kreditkarte.

  • +500 Credits
  • Keine Kreditkarte erforderlich
  • Alle Endpunkte enthalten