Web Scraping ist nicht per se illegal. Das Sammeln öffentlich zugänglicher Daten für Analysen, Forschung oder interne Geschäftsanwendungen ist weit verbreitet akzeptiert, aber die Legalität hängt davon ab, was Sie scrapen, wie Sie es scrapen und was Sie mit den Daten tun. Seit die DSGVO 2018 in Kraft getreten ist, müssen Unternehmen, die mit personenbezogenen Daten aus der EU arbeiten, stärker über die Einhaltung der Vorschriften nachdenken. Im Folgenden behandeln wir die rechtliche Landschaft, sechs praktische Regeln, um auf der sicheren Seite des Gesetzes zu bleiben, und die Gerichtsverfahren, die die Debatte geprägt haben.
Bevor wir auf die rechtlichen Aspekte eingehen, lassen Sie uns kurz was Web Scraping ist und wo es eingesetzt wird behandeln.
Was ist Web Scraping?
Web Scraping ist eine Technik, die verwendet wird, um Inhalte in Form von Daten aus dem Internet zu sammeln und diese normalerweise in einer lokalen Datei zu speichern, damit sie nach Bedarf manipuliert und analysiert werden können. Web Scraping kann für verschiedene Zwecke genutzt werden, wie z. B. das Extrahieren von Produktinformationen, Kundenbewertungen, Nachrichtenartikeln, Social-Media-Beiträgen usw. Es besteht aus zwei Teilen: einem Crawler und einem Scraper. Ein Web-Crawler ist ein Algorithmus, der das Web durchsucht, um nach bestimmten Daten zu suchen, indem er den Links im Internet folgt, während ein Scraper ein Tool ist, das die Daten aus dem HTML-Code einer Website extrahiert und diese extrahierten Daten in einem strukturierten Format ausgibt. Es kann sowohl eine einfache als auch eine herausfordernde Aufgabe sein. Einige Herausforderungen, denen Scraper begegnen können, sind hier aufgelistet.
Herausforderungen des Web Scrapings
Anti-Scraping-Mechanismen:
Mehrere Websites setzen Anti-Scraping-Maßnahmen ein, um Web-Scraping-Bots zu verhindern, darunter CAPTCHAs, IP-Sperren, Honeypot-Fallen, dynamische Inhalte und einige verhindern das Scraping sogar durch die Implementierung von Login-Anforderungen. Web-Scraper müssen verschiedene Techniken anwenden, um diese Hindernisse oder Anti-Scraping-Mechanismen zu umgehen. Die wichtigsten Techniken sind:
- Einen Proxy verwenden
- Einen Captcha-Löser verwenden
- Einen Headless-Browser verwenden
Große Proxy-Infrastrukturen:
Web-Scraper müssen einen Proxy verwenden, um ihre echte IP-Adresse zu verbergen, um nicht von der Website erkannt oder blockiert zu werden. Die Verwaltung einer großen Anzahl von Proxys kann jedoch gleichzeitig kostspielig und kompliziert sein. Web-Scraper müssen zuverlässige und ethische Proxy-Anbieter wählen, die ihnen hochwertige und vielfältige IP-Adressen bieten können.
Geo-spezifisches Scraping:
Einige Websites erlauben keinen Zugriff aus bestimmten Regionen oder zeigen unterschiedliche Inhalte basierend auf dem Standort des Nutzers an. Web-Scraper müssen einen geo-zielgerichteten Proxy oder ein Virtuelles Privates Netzwerk (VPN) verwenden, um auf diese Websites zuzugreifen und die gewünschten Daten von ihnen zu erhalten.
Änderungen der Website-Struktur:
Websites ändern häufig ihre Inhalte und ihr Layout, um die Benutzererfahrung zu verbessern oder neue Funktionen hinzuzufügen. Dies kann die Fähigkeit des Scrapers beeinträchtigen, Daten aus dem HTML-Code zu extrahieren. Web-Scraper müssen diese Änderungen überwachen und ihre Scraping-Fähigkeiten entsprechend anpassen.
Großflächiges Scraping oder verteiltes Scraping:
Wenn Web-Scraper große Datenmengen benötigen oder Daten von mehreren Websites extrahieren müssen, müssen sie verteilte Systeme verwenden, die Parallelität, Skalierbarkeit, Fehlertoleranz und Lastausgleichstechniken handhaben können. Scraper müssen auch die Crawler-Ratenbegrenzungen der Website respektieren, um eine Überlastung der Server der Website zu vermeiden.
Qualität der Daten:
Die extrahierten Daten können unvollständig, ungenau, veraltet oder sogar irrelevant sein, wenn das Scraping nicht ordnungsgemäß durchgeführt wird. Web-Scraper müssen sicherstellen, dass die extrahierten Daten aus zuverlässigen Quellen stammen, und sie müssen die Daten validieren und bereinigen sowie irrelevante Teile entfernen, bevor sie die Ausgabedaten in einem strukturierten Format speichern, um zukünftige Unannehmlichkeiten zu vermeiden.
Tools, die beim Web Scraping verwendet werden:
Es gibt viele Tools, die zum Scrapen von Webdaten verwendet werden, abhängig von den Vorlieben, Bedürfnissen und Fähigkeiten der Scraper. Einige der am häufigsten verwendeten Scraping-Tools sind:
- Piloterr : Dies ist eine API, die Proxys, Browser und CAPTCHAs für die Scraper handhabt. Diese API kann mit jeder Programmiersprache oder jedem Framework verwendet werden.
- Scrap Box : Dies ist eine Desktop-Software, die speziell für Web-Scraper entwickelt wurde. Sie ermöglicht das Scrapen von Websites durch verschiedene Tools wie Keyword-Scraper, Link-Extraktor, E-Mail-Scraping usw.
- Screaming Frog : Diese Desktop-Software durchsucht Websites und prüft sie für SEO-Zwecke. Sie kann verwendet werden, um Meta-Daten wie Titel, Meta-Tags, Bilder, Hyperlinks und andere zu extrahieren.
- Scrapy : Es ist ein Open-Source-Framework zum Scrapen von Daten aus dem Web und Crawlen mit der Programmiersprache Python. Dieses Tool wird verwendet, um Spinnen zu erstellen, die Daten von mehreren Websites gleichzeitig scrapen können.
- Pyspider : Es ist ebenfalls ein Open-Source-Tool oder Framework für Python mit dem zusätzlichen Vorteil einer webbasierten Benutzeroberfläche, die es ermöglicht, Skripte zu schreiben, Aufgaben zu überwachen und sogar Fehler zu debuggen.
- Beautiful Soup : Es ist ebenfalls eine Open-Source-Bibliothek für Scraper, die HTML- und XML-Dokumente in Python durchsucht. Sie kann verwendet werden, um Daten von Websites mit Methoden wie CSS-Selektoren oder regulären Ausdrücken zu extrahieren.
- Diffbot : Diffbot ist eine API, die Computer Vision und natürliche Sprachverarbeitung nutzt, um strukturierte Daten von jeder Art von Website zu extrahieren. Dieses Tool kann mit allen Arten von Programmiersprachen oder Frameworks verwendet werden.
- Common Crawl : Es ist ebenfalls ein Open-Source-Projekt, das großflächige Webdaten crawlt und Ihnen Roh-HTML-Daten zur Verfügung stellt, die je nach Anforderungen der Scraper zugänglich und analysierbar sind. Es kann verwendet werden, um Daten von Millionen von Websites zu erhalten, ohne den aufwendigen Prozess des Scrapings selbst durchführen zu müssen.
Bedeutung von Web Scraping
Web Scraping ermöglicht es Ihnen, auf große Mengen von Daten von verschiedenen Websites zuzugreifen und diese zu analysieren. Die Gründe, die diesen Prozess wichtig machen, sind:
Automatisierung
Web-Scraper können den Prozess der Datenextraktion von verschiedenen Websites automatisieren, was ihnen hilft, Zeit und Ressourcen zu sparen. Diese Tools und APIs können große Datenmengen mit nur einem Klick sammeln.
Kosteneffizienz
Web Scraping kann die Kosten der Datenerfassung reduzieren, indem es die Notwendigkeit manueller Dateneingabe oder sogar die Einstellung von Arbeitskräften, die für einige Organisationen zu kostspielig sein können, eliminiert. Sie können Web Scraping nutzen, um Daten zu erhalten, die ansonsten entweder nicht öffentlich zugänglich oder zu teuer sind.
Einfache Implementierung
Web Scraping kann einfach implementiert werden, indem verschiedene Tools und Techniken verwendet werden, die ausschließlich von Ihren Vorlieben und Fähigkeiten abhängen. Sie können Web-Scraping-Software, Frameworks, Bibliotheken oder APIs verwenden, um Webdaten mit jeder Programmiersprache oder jedem Framework Ihrer Wahl zu extrahieren.
Geringer Wartungsaufwand
Wenn Sie ein zuverlässiges Scraping-Tool oder einen Service nutzen, hilft Ihnen das, den Wartungsaufwand für das Data Mining zu minimieren. Sie können Website-Änderungen überwachen, Fehler behandeln und Ihre Scraper entsprechend aktualisieren.
Geschwindigkeit
Web Scraping kann Daten von Websites mit hoher Geschwindigkeit extrahieren, insbesondere wenn Sie ein verteiltes System verwenden, das Parallelität und Skalierbarkeit handhaben kann. Sie können es nutzen, um große Datenmengen in minimaler Zeit zu erhalten.
Daten Genauigkeit
Web-Scraping-Tools extrahieren Daten direkt von der Quell-Website. Dies stellt die Daten Genauigkeit sicher. Sie können Web-Scraping-Techniken wie reguläre Ausdrücke oder CSS-Selektoren verwenden, um Daten zu validieren und zu bereinigen, bevor sie in einem strukturierten Format gespeichert werden.
Effektives Datenmanagement
Web Scraping kann hilfreich sein, um Daten effektiv zu verwalten, indem es Ihnen ermöglicht, diese in verschiedenen Formaten wie CSV, JSON, XML oder was auch immer Sie möchten, zu exportieren. Sie können es auch nutzen, um Daten mit anderen Quellen, Datenbanken oder APIs zu integrieren.
Innovation
Web Scraping kann Innovation ermöglichen, indem es Ihnen erlaubt, neue Produkte und Dienstleistungen basierend auf den gesammelten Daten zu erstellen. Sie können es nutzen, um Einblicke in Ihren lokalen Markt, Kunden und Wettbewerberinformationen zu erhalten, nach lokalen Trends zu suchen und den Markt genau zu beobachten.
Rechtliche Aspekte des Web Scrapings
Einfach ausgedrückt, ist Web Scraping an sich nicht illegal. Öffentlich zugängliche Daten können in der Regel gesammelt und verwendet werden: Scraper können jedoch auf rechtliche Probleme stoßen, abhängig davon, was sie sammeln und wie sie es verwenden. Die Hauptrisiken sind:
Vertragsbruch
Viele Websites verbieten das Scraping in ihren Nutzungsbedingungen und schränken ein, wie ihre Daten verwendet werden dürfen. Ein Verstoß gegen diese Bedingungen kann zu zivilrechtlichen Klagen wegen Vertragsbruchs führen: selbst wenn die Daten selbst öffentlich sind.
Urheberrechtsverletzung
Websites urheberrechtlich geschützte Inhalte. Das Scrapen von Texten, Bildern oder Datenbanken und deren Weiterveröffentlichung ohne Erlaubnis kann Urheberrechtsverletzungsansprüche auslösen. Das Extrahieren von Fakten ist normalerweise in Ordnung; die Weiterveröffentlichung kreativer Ausdrucksformen jedoch nicht.
Computer Fraud and Abuse Act (CFAA)
Dieses US-Bundesgesetz verbietet den unbefugten Zugriff auf Computer und Netzwerke. Nach dem Urteil des Obersten Gerichtshofs im Fall Van Buren v. United States (2021) gilt der CFAA hauptsächlich, wenn technische Zugriffskontrollen umgangen werden: nicht jedoch, wenn Daten gescrapt werden, die ohne Anmeldung offen sichtbar sind.
Geschäftsgeheimnisse
Das Scrapen vertraulicher oder proprietärer Informationen: Kundenlisten, Preisalgorithmen, interne Dokumente und deren Weitergabe an Dritte kann zu Ansprüchen wegen Diebstahls von Geschäftsgeheimnissen führen.
Datenschutzbestimmungen
Personenbezogene Daten werden getrennt vom Scraping selbst reguliert. In der EU gilt die DSGVO; in Kalifornien der CCPA. Das Sammeln von Namen, E-Mails oder Telefonnummern ohne rechtliche Grundlage oder Einwilligung kann zu erheblichen Geldstrafen führen, unabhängig davon, wie die Daten erlangt wurden.
6 Regeln für legales und konformes Web Scraping
Egal, ob Sie für Marktforschung, Personalbeschaffung oder Wettbewerbsanalyse scrapen, diese sechs Regeln halten Sie auf sicherem Boden:
1. Scrapen Sie für einen legitimen Zweck
Sammeln Sie Daten für Ihre eigene Analyse oder den internen Gebrauch: nicht, um sie weiterzuveröffentlichen, der Quell-Website zu schaden oder dem Eigentümer finanziellen oder reputativen Schaden zuzufügen. Die kommerzielle Weiterveröffentlichung von gescrapten Inhalten erfordert fast immer die Erlaubnis des Urheberrechtsinhabers.
2. Bleiben Sie bei öffentlich zugänglichen Daten
Sammeln Sie nur Informationen, die jeder Besucher ohne Anmeldung oder Umgehung einer Paywall sehen kann. Daten hinter Authentifizierungswänden, Zugangscodes oder Abonnement-Gates sind im rechtlichen Sinne nicht "öffentlich", selbst wenn Sie technisch darauf zugreifen können.
3. Respektieren Sie das Urheberrecht
Bevor Sie Texte, Bilder, Marken oder Datenbankinhalte kopieren, prüfen Sie, ob sie geschützt sind. Sie können in der Regel Fakten wiederverwenden und Daten in ein originales Format umwandeln; Sie dürfen urheberrechtlich geschütztes Material nicht ohne Zustimmung weiterveröffentlichen.
4. Kontrollieren Sie Ihre Scraping-Rate
Aggressives Scraping kann Server überlasten und dazu führen, dass Ihre IP blockiert wird. Überprüfen Sie die robots.txt der Website auf Crawl-delay-Anweisungen. Wenn keine angegeben ist, ist ein sicheres Standardintervall etwa eine Anfrage alle 10–15 Sekunden. Das Ignorieren von robots.txt ist in den meisten Rechtsordnungen nicht illegal, gilt jedoch als schlechte Praxis und führt oft zu Blockierungen.
5. Folgen Sie dem gleichen Weg wie ein normaler Besucher
Greifen Sie auf Seiten so zu, wie es ein Suchmaschinen-Crawler tun würde: über öffentliche URLs, ohne die Struktur der Website zu brechen oder den normalen Betrieb zu stören. Dies reduziert das Risiko sowohl technischer Störungen als auch von Verstößen gegen die Nutzungsbedingungen im Zusammenhang mit unbefugten Zugriffsmethoden.
6. Identifizieren Sie Ihren Scraper
Setzen Sie einen ehrlichen User-Agent-String, der den Namen Ihrer Organisation, eine Kontakt-URL oder E-Mail und eine kurze Beschreibung Ihrer Aktivität enthält. Transparenz macht es Website-Betreibern leichter, Sie zu kontaktieren, und verhindert oft die Eskalation zu rechtlichen Schritten.
CFAA
Der Computer Fraud and Abuse Act (CFAA) ist ein US-Bundesgesetz, das den unbefugten Zugriff auf Computer oder Netzwerke verbietet. Dieses Gesetz wurde 1986 als Änderung des bestehenden Computerbetrugsgesetzes eingeführt, das im Comprehensive Crime Control Act von 1984 enthalten war. Der CFAA deckt verschiedene Arten von Cyber- und Computer-basierten Straftaten und Vergehen ab, wie das Erlangen von Informationen zur nationalen Sicherheit, den Zugriff auf einen Computer, um Informationen zu erhalten, das Eindringen in einen Regierungscomputer, den Zugriff auf einen Computer, um zu betrügen oder einen Wert zu erlangen, vorsätzliche oder fahrlässige Schäden durch wissentliche Übertragung, den Handel mit Passwörtern oder ähnlichen Dingen. Der CFAA sieht auch Vorsichtsmaßnahmen und Rechtsmittel für Opfer vor, die Opfer von Computer- oder Cyberkriminalität geworden sind. Dieses Gesetz wurde wegen seiner Vagheit, Weite und Veraltetheit stark kritisiert, obwohl es im Laufe der Jahre mehrmals geändert wurde, um neue Formen von Cyberkriminalität und die Implementierung neuer Technologien wie KI zu berücksichtigen.
DSGVO
Die DSGVO ist ein EU-Gesetz, das die Erhebung und Verarbeitung personenbezogener Daten von Personen in der EU oder dem EWR regelt. Es gilt für Organisationen innerhalb und außerhalb der EU. Die DSGVO gibt Einzelpersonen die Kontrolle über ihre personenbezogenen Daten und verhängt Strafen für nicht konforme Organisationen. Das Scrapen selbst ist nicht verboten, aber die Nutzung gescraptter personenbezogener Daten – zum Beispiel das Sammeln von Namen und E-Mails zur Lead-Generierung ohne Einwilligung – ist eingeschränkt. Wichtige Anforderungen für Scraper:
- Rechtmäßige Grundlage: Web Scraping muss einen gültigen rechtlichen Grund für das Sammeln und Verwenden personenbezogener Daten haben. Die DSGVO sieht sechs mögliche rechtmäßige Grundlagen vor: Einwilligung, Vertrag, rechtliche Verpflichtung, lebenswichtiges Interesse, öffentliches Interesse und berechtigtes Interesse. Web Scraper müssen eine dieser Grundlagen bestimmen, die auf ihre Tätigkeit zutrifft, und diese entsprechend dokumentieren.
- Transparenz: Web Scraping muss transparent sein und die betroffenen Personen darüber informieren, wie ihre personenbezogenen Daten gesammelt und verwendet werden. Die DSGVO verlangt von Web Scrapern, klare und präzise Informationen über ihre Identität, den Zweck der Datenerhebung, die rechtliche Grundlage, die Empfänger, die Speicherdauer, die Rechte der betroffenen Personen usw. bereitzustellen.
- Datenminimierung: Web Scraper müssen die Erhebung und Nutzung personenbezogener Daten auf das beschränken, was für bestimmte Zwecke relevant und notwendig ist. Die DSGVO verlangt von Web Scrapern, ihre Datenextraktion auf das zu beschränken, was angemessen und verhältnismäßig zu den Zielen ist.
- Datenqualität: Web Scraping muss sicherstellen, dass personenbezogene Daten korrekt und stets aktuell sind. Die DSGVO verlangt von Web Scrapern, unrichtige Daten unverzüglich zu korrigieren und zu löschen.
- Datensicherheit: Web Scraping muss personenbezogene Daten vor unbefugtem Zugriff oder Verlust schützen. Die DSGVO verlangt die Implementierung angemessener technischer und organisatorischer Maßnahmen, um ein Sicherheitsniveau zu gewährleisten, das den mit der Verarbeitung personenbezogener Daten verbundenen Risiken entspricht.
- Datenschutz-Folgenabschätzung (DPIA): Web Scraper müssen eine DPIA durchführen, wenn sie ein hohes Risiko bei der Verarbeitung personenbezogener Daten eingehen. Eine DPIA ist ein systematischer Prozess, der die Auswirkungen der Verarbeitung auf die Rechte und Freiheiten der betroffenen Personen bewertet und Maßnahmen zur Minderung dieser Risiken identifiziert.
GDPA
Das Allgemeine Datenschutzgesetz (GDPA) ist ein brasilianisches Gesetz, das die personenbezogenen Daten von Personen in Brasilien regelt. Es regelt, wie diese Daten gesammelt und verarbeitet werden, und schützt Daten innerhalb und außerhalb Brasiliens ähnlich wie die DSGVO.
Nutzungsbedingungen
Nutzungsbedingungen (ToS) sind eine rechtliche Vereinbarung zwischen Website-Betreibern und Nutzern. Für das Scraping sind die relevanten Klauseln diejenigen, die den automatisierten Zugriff einschränken oder begrenzen, wie die Daten verwendet werden dürfen.
Diese Nutzungsbedingungen sind wichtig, weil sie die zivilrechtliche Haftung Ihrer Scraping-Aktivitäten beeinflussen können. Ein Verstoß gegen die ToS macht das Scraping nicht automatisch strafbar, aber Website-Betreiber können wegen Vertragsbruchs klagen. Im Zweifelsfall sollten Sie schriftliche Erlaubnis einholen: insbesondere für die kommerzielle Nutzung.
Bemerkenswerte Plattform-Richtlinien:
- Ryanair verbietet ausdrücklich kommerzielles Scraping, es sei denn, Sie haben eine schriftliche Lizenzvereinbarung.
- LinkedIn verbietet das Scrapen von Profilen über Crawler, Browser-Plugins oder andere automatisierte Mittel: obwohl Gerichte entschieden haben, dass das Scrapen öffentlicher Profile nicht gegen den CFAA verstößt (siehe Fallstudie unten).
- Amazon verlangt eine schriftliche Genehmigung, bevor Roboter, Spinnen oder Scraper auf seinen Diensten verwendet werden.
- Meta (Facebook, Instagram) verbietet die automatisierte Datenerfassung ohne vorherige Genehmigung.
- X (Twitter) schränkt den Zugriff auf seine offiziell unterstützte API und Schnittstellen ein.
- YouTube begrenzt den Zugriff auf seine eigenen bereitgestellten Tools und Schnittstellen.
Ethische Anwendungen von Web Scraping
Web Scraping gilt nicht als illegal, wenn es ethisch durchgeführt wird. Das bedeutet, wenn Sie Daten scrapen, die öffentlich zugänglich sind, nicht durch Gesetze und Vorschriften geschützt oder eingeschränkt sind und nur für nützliche und legitime Zwecke verwendet werden. Einige ethische Anwendungsfälle von Web Scraping sind:
- Scrapen von Daten für akademische Forschung und Bildungszwecke.
- Scrapen für Marktanalysen oder Business Intelligence.
- Scrapen für Content-Aggregation und Nachrichtenkuratierung.
- Scrapen für SEO oder Web-Analysen.
Verbotene oder illegale Nutzung von Web Scraping
Web Scraping wird illegal, wenn es für unethische Zwecke verwendet wird, wie das Veröffentlichen der gesammelten Daten, um jemandem zu schaden, oder der Versuch, vertrauliche oder nicht öffentlich zugängliche Daten zu sammeln, die aus gutem Grund verboten sind. Einige Beispiele für illegale Anwendungsfälle von Web Scraping sind:
- Scrapen von personenbezogenen Daten wie Namen, E-Mails, Telefonnummern oder Kontaktdaten ohne Einwilligung oder Einhaltung von Datenschutzbestimmungen wie der DSGVO oder dem CCPA.
- Scrapen von urheberrechtlich geschützten Inhalten wie Büchern, Bildern, Artikeln, Musik usw. ohne Erlaubnis des Eigentümers zur fairen Nutzung.
- Scrapen von vertraulichen oder proprietären Informationen wie Geschäftsgeheimnissen, Geschäftsstrategien, Kundenlisten usw. ohne Genehmigung der relevanten Geschäftsgruppe.
- Scrapen von Daten durch Umgehen von Sicherheitsmaßnahmen wie CAPTCHAs, IP-Sperren, Login und anderen oder Verstoß gegen den CFAA und andere Gesetze.
- Scrapen von Daten durch Verstoß gegen die Nutzungsbedingungen oder die robots.txt-Datei, die Web Scraping verbieten oder einschränken.
- Scrapen von Daten durch Überlastung des Webservers oder Störung der Funktionalität einer Website.
- Scrapen von Daten für Spamming, Phishing, betrügerische Aktivitäten, Identitätsdiebstahl und Cyberangriffe usw.
Fallstudien
Im Folgenden sind bedeutende Rechtsstreitigkeiten im Zusammenhang mit Web Scraping aufgeführt, die zeigen, wie Gerichte über öffentliche Daten, ToS und den CFAA entschieden haben.
HiQ Labs vs LinkedIn
HiQ Labs scrapte öffentlich sichtbare LinkedIn-Profil-Daten, um Arbeitgebern Analysedienste anzubieten. LinkedIn schickte ein Unterlassungsschreiben und blockierte den Zugriff, mit der Begründung, es handle sich um Verstöße gegen den CFAA und die ToS.
Der Fall durchlief mehrere Runden:
- 2019: Das Ninth Circuit entschied, dass das Scrapen öffentlich zugänglicher Daten nicht gegen den CFAA verstößt.
- 2021: Der Oberste Gerichtshof hob dieses Urteil nach Van Buren v. United States auf, das den CFAA auf unbefugten Zugriff und nicht allein auf ToS-Verstöße einschränkte.
- 2022: Das Ninth Circuit bestätigte, dass HiQ öffentliche Profile scrapen durfte. LinkedIns Antrag auf Überprüfung durch den Obersten Gerichtshof wurde abgelehnt.
Am Ende stellten die Gerichte fest, dass HiQ gegen die Nutzungsbedingungen von LinkedIn verstoßen hatte: es gab jedoch kein endgültiges Urteil darüber, wann Scraping selbst illegal ist. HiQ ging aus dem Geschäft, bevor der Streit vollständig beigelegt war.
Erkenntnis: Das Scrapen öffentlicher Daten ist in den USA im Allgemeinen kein CFAA-Verbrechen, aber ein Verstoß gegen die ToS einer Plattform kann dennoch zu zivilrechtlichen Ansprüchen wegen Vertragsbruchs führen. LinkedIns ToS verbietet ausdrücklich das Scrapen, selbst wenn Gerichte dies nicht als Hacking einstufen.
LinkedIn vs Proxycurl und ProAPIs (2025)
LinkedIns Durchsetzungsmaßnahmen endeten nicht mit HiQ. Wie Bloomberg Law im Dezember 2025 berichtete, hat die Plattform ihren rechtlichen und technischen Kampf gegen Bot-Scraper intensiviert: insbesondere, da KI-Tools das großflächige Extrahieren mit weniger Aufwand ermöglichen.
Zwei aktuelle Fälle veranschaulichen die Veränderung:
- Proxycurl (2025): LinkedIn verklagte das in Singapur ansässige Startup wegen der Erstellung gefälschter Konten, um Profile in großem Umfang zu scrapen. Proxycurl stellte im Juli 2025 den Betrieb ein, anstatt den Rechtsstreit fortzusetzen.
- ProAPIs (2025): Im Oktober verklagte LinkedIn ProAPIs und warf dem Unternehmen vor, Millionen gefälschter Konten und Scraping-Software zu betreiben, die auf Hunderte von Anfragen pro Sekunde ausgelegt war. Der Fall (LinkedIn Corporation v. ProAPIs Inc, N.D. Cal., No. 3:25-cv-8393) stand Ende 2025 kurz vor einer vorzeitigen Einigung.
LinkedIns Schriftsätze beschreiben ein Katz-und-Maus-Spiel: Gefälschte Konten werden oft innerhalb eines Tages erkannt, aber jedes kann Dutzende von Profilen scrapen, bevor es eingeschränkt wird, und neue Konten ersetzen gesperrte schneller, als sie entdeckt werden können.
Was sich geändert hat: Im Gegensatz zur HiQ-Ära stützen sich LinkedIns jüngste Erfolge weniger auf CFAA-Argumente und mehr auf die Erstellung gefälschter Konten, ToS-Verstöße und den Bruch von Zugriffskontrollen. Gerichte haben sich auch auf die Seite von Scrapern gestellt, wenn nur öffentlich zugängliche Daten gesammelt wurden (wie im Fall von Bright Data gegen Meta 2024), aber Ansprüche, die gefälschte Anmeldungen oder Passwort-Wände betreffen, bleiben viel schwerer zu verteidigen.
Für Scraper ist die Lehre klar: LinkedIn verfolgt aktiv großflächige Operationen, und die rechtliche Lage rund um das Scrapen von Profilen (insbesondere für KI-Training oder Weiterverkauf) bleibt unklar.
Meta Inc. vs BrandTotal LTD und Unimania Inc.
Zwei Unternehmen nutzten Browser-Erweiterungen, um Daten von Meta-Plattformen (Facebook, Instagram, Twitter, YouTube, LinkedIn, Amazon) ohne Genehmigung zu scrapen. Meta verklagte sie wegen ToS-Verstößen und unbefugtem Datenzugriff. Der Fall wurde 2022 mit einer dauerhaften Verfügung und einer erheblichen finanziellen Strafe beigelegt.
Ryanair Limited vs PR Aviation
PR Aviation scrapte Fluginformationen von Ryanairs Website, um Preisvergleiche anzubieten. Ryanair verklagte das Unternehmen wegen ToS- und Datenbankschutzverletzungen. Der Europäische Gerichtshof entschied 2015 zugunsten von Ryanair und bestätigte, dass Website-Betreiber vertraglich das Scrapen ihrer Daten durch Dritte einschränken können.
Fazit
Web Scraping ist legal, wenn Sie öffentlich zugängliche Daten für legitime Zwecke sammeln. Um konform zu bleiben:
- Vermeiden Sie das Scrapen personenbezogener Daten, die durch die DSGVO, den CCPA oder ähnliche Gesetze geschützt sind, ohne rechtliche Grundlage.
- Respektieren Sie das Urheberrecht: extrahieren Sie Fakten, veröffentlichen Sie keine geschützten Inhalte.
- Befolgen Sie die ToS und robots.txt der Website, drosseln Sie Ihre Anfragen und identifizieren Sie Ihren Scraper.
- Umgehen Sie niemals Login-Wände, CAPTCHAs oder andere Zugriffskontrollen, um auf eingeschränkte Daten zuzugreifen.
Scraping wird illegal, wenn Sie die Daten für Betrug, Spam oder Schaden verwenden: oder wenn Sie gegen Urheberrecht, Datenschutzbestimmungen oder Gesetze zum Schutz von Geschäftsgeheimnissen verstoßen. Im Zweifelsfall konsultieren Sie einen Anwalt, der mit den Rechtsordnungen vertraut ist, in denen Sie tätig sind und in denen die Ziel-Website gehostet wird.