Qu'est-ce que les pipelines de données ?

Question

Accepted Answer

Un pipeline de données est une méthode pour déplacer des données non traitées depuis plusieurs sources de données vers un stockage prêt pour l'analyse, tel qu'un data lake ou un entrepôt de données. Dans la plupart des cas, les données sont traitées avant d'entrer dans un référentiel de données. Cela inclut des transformations de données qui garantissent une intégration et une standardisation appropriées des données, telles que le filtrage, le masquage et les agrégations. Lorsqu'une base de données relationnelle est la destination finale du jeu de données, cela est particulièrement crucial. Pour mettre à jour les données existantes avec de nouvelles données, ce type de référentiel de données nécessite un alignement, c'est-à-dire la correspondance des colonnes et des types de données.

Termes associés