Skip to main content
Piloterr

Alimentez modèles, agents et RAG avec des corpus web frais

Données pour l'IA

Le web ouvert est le plus grand corpus d'entraînement. Piloterr transforme listes d'URLs en Markdown et JSON propres, avec contournement anti-bot et formats prêts LLM.

  • Collectez texte, métadonnées et enregistrements structurés depuis pages publiques
  • Émettez Markdown ou JSON optimisés pour tokenisation et chunks RAG
  • Crawlez, dédupliquez et sharder en fichiers prêts pipeline

Markdown

sortie prête LLM

JSON

enregistrements structurés

0

crédit si échec

Exploration

APIs de parcours site

Collecte de corpus à grande échelle

Partez de seeds, suivez liens avec profondeur limitée, convertissez en Markdown sans boilerplate. Piloterr gère débit, retries et bypass de bout en bout.

  • Seeds, sitemaps ou résultats de recherche comme entrées crawl
  • Déduplication par hash URL avant écriture des shards
  • Rendu furtif pour sites doc lourds en JavaScript

Extraction structurée sans parsers custom

HTML vers JSON typé via schémas, ou Markdown propre pour pipelines d'embedding. Les changements de layout ne cassent pas vos jobs.

  • Validation de schéma pour champs d'entraînement cohérents
  • Re-scrapes delta : ne ré-embeddez que les docs modifiés
  • Webhooks ou livraison vers votre data lake

Comment les équipes ML utilisent Piloterr pour l'entraînement IA

Du pre-training aux boucles RAG live sur sources web publiques.

Fraîcheur corpus

Re-scrapez sources planifiées et différez hashes contenu.

Ingestion batch

Jobs nocturnes qui appendent shards aux datasets existants.

Export Markdown

Texte propre sans chrome nav, prêt à tokeniser.

Pipelines RAG

Poussez chunks vers vector DB via ETL ou agents.

Millions de pages

Fetch parallèle avec pacing par domaine.

Dérive des sources

Alerte si robots ou layout d'un seed changent.

API-first

400+ endpoints ou n'importe quelle URL en un appel REST

Échelle production

Jobs parallèles sans gérer proxies ni navigateurs

Cibles protégées

Contournement anti-bot géré et retries intelligents

Facturation juste

Payez uniquement les requêtes API réussies

Questions fréquentes

Tout ce qu'il faut savoir avant l'intégration.

Quelles données publiques conviennent à l'entraînement ?

Documentation, forums, articles et fiches produit visibles sans login. Évitez PII et lisez conditions et robots de chaque source.

Puis-je sortir du Markdown pour embedding ?

Oui. Piloterr peut renvoyer Markdown prêt LLM ou texte brut avec JSON structuré sur le même appel.

Des proxies suffisent pour crawls d'entraînement ?

Les sites protégés analysent TLS, HTTP/2 et signaux navigateur. Piloterr bundle Chrome furtif, routage et bypass en une API.

Choisissez votre prochaine étape

Connectez votre workflow, comparez les forfaits ou explorez les endpoints prêts à l'emploi avant de commencer.

Intégrations

Compatible avec n8n, Zapier et Make

Connectez Piloterr à votre infrastructure d'automatisation, ou appelez notre API REST depuis n'importe quel workflow.

  • n8n logo
  • Zapier logo
  • Make logo

Abonnements

Tarification simple à l'usage

Payez uniquement les requêtes réussies. Commencez avec +500 crédits, puis évoluez avec des forfaits transparents.

Bibliothèque d'API

Explorez des endpoints prêts à l'emploi

Plus de 400 scrapers dans la bibliothèque d'API avec documentation OpenAPI.

Prêt à commencer ?

Votre API de scraping web est à un clic. Commencez avec +500 crédits, sans infrastructure à gérer, sans proxies à configurer, et sans carte bancaire.

  • +500 crédits
  • Aucune carte bancaire requise
  • Tous les endpoints inclus