Was sind Datenpipelines?

Question

Accepted Answer

Eine Datenpipeline ist eine Methode, um Rohdaten von mehreren Datenquellen in einen analysebereiten Datenspeicher wie einen Data Lake oder ein Data Warehouse zu übertragen. In den meisten Fällen werden die Daten verarbeitet, bevor sie in ein Datenrepository gelangen. Dazu gehören Datentransformationen, die eine korrekte Datenintegration und Standardisierung sicherstellen, wie z.B. Filtern, Maskieren und Aggregationen. Dies ist besonders wichtig, wenn eine relationale Datenbank das endgültige Ziel des Datensatzes ist. Um aktuelle Daten mit neuen Daten zu aktualisieren, benötigt diese Art von Datenrepository eine Ausrichtung, also die Übereinstimmung von Datenspalten und -typen.

Verwandte Begriffe