Google Knows Your Darkest Secrets - The Truth about the most popular search engines in the World

Les 6 design patterns de Data Pipeline/ETL pour Data Engineer & Data Scientist

PySpark tuto 1 : Ingestion, Manipulation et Analyse d'un grand volume de données | Big Data

DAD LEFT HIS OLD SOCKS ON THE COUCH…😱😂

Beautiful game!😍

Ráno po jednorázovke

Construction d'un Pipeline ETL avec PySpark pour le projet Analyse des trajets en taxi

J.A DATATECH CONSULTING

zhlédnutí 581

Přidat do
- Můj playlist
- Přehrát později
Sdílet

Sdílet

Vložit

Velikost videa:

Zobrazit ovladače přehrávání

Automatické přehrávání

Přehrát

čas přidán 24. 07. 2024
Dans cette deuxième approche d'analyse des données de trajets en taxi à New York, nous adoptons une méthode basée sur PySpark pour l'extraction, la transformation et le chargement des données (ETL). Voici comment cette approche est mise en œuvre ainsi que les avantages et les inconvénients associés à chaque étape du processus.
*Extraction de données:*
Semblable à la première approche, nous commençons par télécharger les fichiers de données brutes au format Parquet depuis le site Web de la ville de New York. Cependant, au lieu d'utiliser Pandas pour l'extraction, nous utilisons PySpark pour importer chaque fichier Parquet en tant que Spark DataFrame. PySpark est optimisé pour le traitement distribué et peut gérer efficacement de grands ensembles de données, ce qui le rend idéal pour cette tâche.
*Transformation des données :*
Les transformations des données de trajet en taxi sont effectuées à l'aide des puissantes fonctionnalités de PySpark. Cela inclut des opérations telles que le nettoyage des données, la gestion des valeurs manquantes, le calcul de nouvelles fonctionnalités et la fusion de plusieurs DataFrames. Les capacités de traitement distribué de PySpark permettent une gestion efficace d'ensembles de données volumineux et accélèrent les opérations de transformation.
*Chargement dans un fichier de parquet unique :*
Une fois les transformations effectuées, les données sont écrites dans un seul fichier Parquet. Cette étape est rapide et efficace grâce aux capacités de traitement distribué de PySpark. Le fichier Parquet résultant contient toutes les données transformées, prêtes pour une analyse plus approfondie.
*Avantages de l'approche :*
1. *Traitement distribué* : PySpark permet le traitement distribué des données, permettant une gestion efficace d'ensembles de données volumineux et accélérant les opérations de transformation.
2. *Interopérabilité avec Hadoop* : PySpark s'intègre facilement à Hadoop, facilitant le déploiement de solutions d'analyse sur les clusters Hadoop existants.
3. *Évolutivité* : cette approche est hautement évolutive et peut facilement être adaptée pour gérer des volumes de données encore plus importants à mesure que les besoins d'analyse augmentent.
4. *Gestion de la mémoire* : Avec la gestion de la mémoire distribuée, cette approche évite les problèmes de saturation de la mémoire souvent rencontrés avec d'autres solutions.
5. *Intégration avec l'apprentissage automatique* : PySpark dispose de frameworks dédiés à l'apprentissage automatique (MLlib), ce qui facilite l'extension de l'analyse aux tâches d'apprentissage automatique.
*Inconvénients de l'approche :*
1. *Complexité de configuration* : La mise en place d'une infrastructure PySpark nécessite une configuration initiale complexe, notamment pour garantir la compatibilité avec les environnements Hadoop existants.
2. *Courbe d'apprentissage* : PySpark a une courbe d'apprentissage plus abrupte que Pandas, nécessitant une formation supplémentaire pour les utilisateurs moins familiers avec Python et Spark.
Cette approche diffère de la précédente en ce sens qu'elle utilise PySpark pour gérer les opérations de données et Parquet comme format de stockage final. Voici une comparaison entre l'utilisation d'une base de données SQL et les fichiers Parquet comme destination finale des données transformées.
Lien du code pour ETL avec PySpark : buy.stripe.com/6oE9EC7Jk8UW2G...
Lien du code pour ETL avec Pandas : buy.stripe.com/3cs186bZAgnofs...
Video pour demarrer dans PySpark : • PySpark tuto 1 : Inges...
Lien de mon livre sur PySpark en version papier sur Amazon : www.amazon.fr/dp/B0C9K6GTNH?r...
𝙇𝙞𝙚𝙣 𝙙'𝙖𝙘𝙝𝙖𝙩 𝙫𝙚𝙧𝙨𝙞𝙤𝙣 𝙋𝘿𝙁 : afoudajosue.gumroad.com/l/yeatg
Zábava

Komentáře • 1

@RealProDatascience Před 2 měsíci
Lien du code pour ETL avec PySpark : buy.stripe.com/6oE9EC7Jk8UW2Gc4gx
Lien du code pour ETL avec Pandas : buy.stripe.com/3cs186bZAgnofsYcN2
Video pour demarrer dans PySpark : czcams.com/video/QCuQzktfQV4/video.html
Lien de mon livre sur PySpark en version papier sur Amazon : www.amazon.fr/dp/B0C9K6GTNH?ref_=ast_author_ofdp
𝙇𝙞𝙚𝙣 𝙙'𝙖𝙘𝙝𝙖𝙩 𝙫𝙚𝙧𝙨𝙞𝙤𝙣 𝙋𝘿𝙁 : afoudajosue.gumroad.com/l/yeatg

Další v pořadí

Automatické přehrávání

Google Knows Your Darkest Secrets - The Truth about the most popular search engines in the World

Google Knows Your Darkest Secrets - The Truth about the most popular search engines in the World

Les 6 design patterns de Data Pipeline/ETL pour Data Engineer & Data Scientist

Les 6 design patterns de Data Pipeline/ETL pour Data Engineer & Data Scientist

PySpark tuto 1 : Ingestion, Manipulation et Analyse d'un grand volume de données | Big Data

PySpark tuto 1 : Ingestion, Manipulation et Analyse d'un grand volume de données | Big Data

DAD LEFT HIS OLD SOCKS ON THE COUCH…😱😂

DAD LEFT HIS OLD SOCKS ON THE COUCH…😱😂

Beautiful game!😍

Beautiful game!😍

Ráno po jednorázovke

Ráno po jednorázovke

When You're a Chef and a Katana Owner...

When You're a Chef and a Katana Owner...

Architecture Data 1/3 : le Data Warehouse

Architecture Data 1/3 : le Data Warehouse

Cette IA transforme ton Excel en application en 5 min ! BLUFFANT !

Cette IA transforme ton Excel en application en 5 min ! BLUFFANT !

Portfolio en Data Science : Caractéristiques d'un Projet qui attirent les recruteurs

Portfolio en Data Science : Caractéristiques d'un Projet qui attirent les recruteurs

Apache Parquet, c'est quoi ??

Apache Parquet, c'est quoi ??

J'ai codé un algorithme qui reconnaît les gens dans la rue

J'ai codé un algorithme qui reconnaît les gens dans la rue

These Data Engineering Projects Give You An Unfair Advantage

These Data Engineering Projects Give You An Unfair Advantage

The Harsh Reality of Being a Data Analyst

The Harsh Reality of Being a Data Analyst

He understood the assignment 💯 slide with caution x2

He understood the assignment 💯 slide with caution x2

Summer i's really Dumb #rickandmorty #shorts

Summer i's really Dumb #rickandmorty #shorts

Policie Zastavila Boháče, ale...

Policie Zastavila Boháče, ale...

Unexpected Act of Kindness: Woman Rescues Stuck Driver by Cutting Dress #shorts

Unexpected Act of Kindness: Woman Rescues Stuck Driver by Cutting Dress #shorts

Když tě zradí kámoši 🥲 #fyp #funny #short

Když tě zradí kámoši 🥲 #fyp #funny #short

Ako si mamka (ne)zahrala v reklame 🤣 #denisavysnovska #memeczsk #protebe #vtipnávidea #detstvo

Ako si mamka (ne)zahrala v reklame 🤣 #denisavysnovska #memeczsk #protebe #vtipnávidea #detstvo

He Used All The Sauce On 1 Slice Of Pizza🤪😂

He Used All The Sauce On 1 Slice Of Pizza🤪😂