Kann LlamaIndex Markdown von Piloterr aufnehmen?

Ja. Verwenden Sie Endpunkte, die Markdown-freundliche Felder zurückgeben, oder bilden Sie JSON-Textfelder direkt auf Document-Objekte ab.

Wie oft sollte ich den Index aktualisieren?

Passen Sie die Aktualisierungshäufigkeit an den Bedarf an Datenaktualität an. Nachrichten: stündlich. Preise: täglich. Verwenden Sie geplante Jobs, die Piloterr aufrufen und geänderte Dokumente aktualisieren.

Funktioniert das mit LlamaIndex Cloud?

Ja. Benutzerdefinierte Reader laufen in Ihrer Pipeline, unabhängig davon, wo der Index gehostet wird.

AI-Stacks

Webdaten-Ingestion für LlamaIndex mit Piloterr

Laden Sie Live-Webinhalte in LlamaIndex-Pipelines über Piloterr REST-APIs. Strukturiertes JSON und Markdown von geschützten Seiten, bereit für Chunking, Embedding und Retrieval.

Kostenlos starten (+500 Credits)Preise ansehen

Benutzerdefinierte Reader und Tools über Piloterr-Endpunkte
Sauberes JSON/Markdown, kein HTML-Bereinigungsschritt
Anti-Bot-Umgehung für produktives RAG
Funktioniert mit jedem Vektorspeicher, den LlamaIndex unterstützt

Auf einen Blick

Reader

Benutzerdefinierte Loader

JSON

Strukturierte Eingabe

500

Web-Quellen

REST

HTTP-API

Warum LlamaIndex verbinden?

Benutzerdefinierte Daten-Loader
Erstellen Sie LlamaIndex-Reader, die Seiten über Piloterr abrufen und Document-Objekte mit bereinigtem Text und Metadaten zurückgeben.
Abfrage-Engines
Kombinieren Sie gescrapte Daten mit LlamaIndex-Abfrage-Engines für fundierte Frage-Antwort-Systeme über Live-Webinhalte.
HTML-Parsing überspringen
Piloterr liefert strukturierte Felder wie Titel, Body, Preis und Metadaten – ohne Vorverarbeitung mit BeautifulSoup.
Produktionssicherheit
Anti-Bot-Umgehung und verwaltete Proxys sorgen dafür, dass Ihre Ingestions-Pipeline nicht ausfällt, wenn Ziele Cloudflare hinzufügen.

LlamaIndex + Piloterr Muster

Von einmaliger Recherche bis zur geplanten Index-Aktualisierung.

Dokumentenaufnahme
JSON abrufen, Felder auf Document-Text und Metadaten abbilden, in Vektorspeicher indexieren.
Geplante Aktualisierung
Cron oder Workflow-Trigger lösen erneutes Scraping aus und fügen geänderte Dokumente ein.
Multi-Quellen-Indizes
Kombinieren Sie SERP-, Nachrichten- und Produktdaten in einem einzigen LlamaIndex-Index.
Tool-unterstützte Abfrage
Abfrage-Engines rufen Piloterr bei Bedarf für Fragen mit aktuellen Daten auf.

Warum nicht nur SimpleWebPageReader verwenden?

Ansatz	Eigene Lösung	Piloterr
SimpleWebPageReader	Blockiert auf geschützten Seiten	Verwaltete Umgehung
Roh-HTML	Unsaubere Chunks, schlechte Abfrageergebnisse	Strukturierte Textfelder
JS-lastige SPAs	Leerer Inhalt	Headless-Rendering
Wartung	Logik für jeden Site-Scraper	500 verwaltete Endpunkte

LlamaIndex in vier Schritten verbinden

Schritt 1
LlamaIndex installieren
pip install llama-index llama-index-llms-openai llama-index-embeddings-openai requests
Schritt 2
Ihren API-Schlüssel abrufen
Setzen Sie PILOTERR_API_KEY in Ihrer Umgebung.
Ihren API-Schlüssel abrufen
Schritt 3
Einen benutzerdefinierten Reader erstellen
Erstellen Sie eine Unterklasse von BaseReader oder verwenden Sie eine Funktion, die Piloterr aufruft und Documents zurückgibt.
Schritt 4
Index erstellen und abfragen
VectorStoreIndex.from_documents() und dann query_engine.query().

Workflow-Rezepte

Wettbewerbsintelligenz-Index
Tägliches Scraping von Wettbewerberseiten → Chunking → Einbettung → Frage-Antwort-System über Preise und Funktionen.
Nachrichtenüberwachung mit RAG
Google News-Reader aktualisiert den Index stündlich für die Verfolgung von Branchen-Keywords.
Produktkatalogsuche
E-Commerce-API-Daten werden für semantische Produktsuche indexiert.
Hilfe-Center-Frage-Antwort-Index
Hilfe-Dokumente über Piloterr-Reader aufnehmen, nächtlich aktualisieren und semantische Suche für den Support ermöglichen.

LlamaIndex vs. LangChain vs. CrewAI

Szenario
RAG und Dokumentenindexierung
Empfehlung: LlamaIndex
Szenario
Tool-basierte Agenten
Empfehlung: LangChain
Szenario
Multi-Agenten-Teams
Empfehlung: CrewAI
Szenario
Einfaches HTTP-ETL
Empfehlung: Python SDK

LlamaIndex-Reader-Beispiel

Laden Sie Google News-Artikel über Piloterr in einen Vektorindex.

API-Bibliothek durchstöbern

import os
import requests
from llama_index.core import Document
from llama_index.core.readers.base import BaseReader

class PiloterrNewsReader(BaseReader):
    def __init__(self, api_key: str | None = None):
        self.api_key = api_key or os.environ["PILOTERR_API_KEY"]
        self.base = "https://api.piloterr.com/v2"

    def load_data(self, query: str, location: str = "Paris, FR") -> list[Document]:
        response = requests.post(
            f"{self.base}/google/news",
            headers={"x-api-key": self.api_key, "Content-Type": "application/json"},
            json={"query": query, "location": location, "page": 1},
            timeout=60,
        )
        response.raise_for_status()
        data = response.json()
        docs = []
        for item in data.get("organic_results", []):
            docs.append(Document(
                text=f"{item.get('title', '')}\n\n{item.get('snippet', '')}",
                metadata={"url": item.get("link"), "source": item.get("source")},
            ))
        return docs

Siehe auch

LangChain

CrewAI

n8n

Make

Transparente Credit-Preise

Zahlen Sie nur für erfolgreiche Anfragen. Starten Sie mit +500 Credits, dann skalieren Sie mit Plänen ab 49 $/Monat.

Premium

$49/Monat

18,000 Credits

Premium+

$99/Monat

40,000 Credits

Startup

$249/Monat

110,000 Credits

Alle Pläne und Credit-Modi anzeigen →Schätzen Sie Ihren monatlichen Bedarf →

Bereit loszulegen?

Ihre Web-Scraping-API ist nur einen Klick entfernt. Starten Sie mit +500 Credits, ohne Infrastruktur einrichten zu müssen, ohne Proxys zu verwalten und ohne Kreditkarte.

+500 Credits
Keine Kreditkarte erforderlich
Alle Endpunkte enthalten

Kostenlos starten (+500 Credits)Mit einem Datenexperten sprechen

Webdaten-Ingestion für LlamaIndex mit Piloterr

Warum LlamaIndex verbinden?

Benutzerdefinierte Daten-Loader

Abfrage-Engines

HTML-Parsing überspringen

Produktionssicherheit

LlamaIndex + Piloterr Muster

Dokumentenaufnahme

Geplante Aktualisierung

Multi-Quellen-Indizes

Tool-unterstützte Abfrage

Warum nicht nur SimpleWebPageReader verwenden?

LlamaIndex in vier Schritten verbinden

LlamaIndex installieren

Ihren API-Schlüssel abrufen

Einen benutzerdefinierten Reader erstellen

Index erstellen und abfragen

Workflow-Rezepte

Wettbewerbsintelligenz-Index

Nachrichtenüberwachung mit RAG

Produktkatalogsuche

Hilfe-Center-Frage-Antwort-Index

LlamaIndex vs. LangChain vs. CrewAI

RAG und Dokumentenindexierung

Tool-basierte Agenten

Multi-Agenten-Teams

Einfaches HTTP-ETL