J.A DATATECH CONSULTING
J.A DATATECH CONSULTING
  • 513
  • 851 496
Présentation d'un Projet de Data Engineering : Pipeline ETL avec Python et PostgreSQL
La première étape de ce projet consiste à collecter des données sur les trajets en taxi de la ville de New York à partir de la source officielle fournie par la NYC Taxi and Limousine Commission (TLC).
Une fois les données collectées, le processus Extract, Transform, Load (ETL) est lancé pour préparer les données à l'intégration dans une base de données PostgreSQL. Voici les étapes détaillées du processus ETL :
Extraction:
Les données sont extraites des fichiers sources téléchargés depuis le site Web de TLC (www.nyc.gov/site/tlc/about/tlc-trip-record-data.page). En fait, ces fichiers sont au format PARQUET comme spécifié par la source.
Transformation:
Une fois les données extraites, elles subissent des transformations pour les nettoyer, les structurer et les préparer au chargement dans la base de données. Les transformations peuvent inclure le nettoyage des données en supprimant les doublons, en corrigeant les erreurs de format ou en gérant les valeurs manquantes. La structure des données peut également être modifiée pour correspondre au schéma de la base de données cible. Par exemple, les champs peuvent être renommés, reformatés ou combinés selon les besoins de l'analyse.
Chargement:
Une fois les données nettoyées et transformées, elles sont chargées dans une base de données PostgreSQL. Avant le chargement, le Data Scientist crée un schéma de base de données approprié pour stocker les données de trajet en taxi. Cela implique de définir les tables, les colonnes et les contraintes nécessaires pour garantir l'intégrité des données. Les données sont chargées dans la base de données à l'aide d'outils et de langages de programmation adaptés, tels que psycopg2 (pour Python) ou des commandes SQL.
Une fois cette première partie terminée, toutes les données de trajets en taxi seront intégrées et prêtes à être explorées et analysées dans la base de données PostgreSQL. Ce processus garantit que les données sont organisées de manière efficace et cohérente, facilitant ainsi les étapes ultérieures de l'analyse des données.
Comment automatiser le téléchargement des fichiers de données au format PARQUET pour les trajets en taxi jaune à New York : czcams.com/video/6Mzmg4E78R0/video.html
czcams.com/video/Qj4ssjqRZvk/video.html
Lien des codes de tout le processus #etl : buy.stripe.com/3cs186bZAgnofsYcN2
zhlédnutí: 1 105

Video

PySpark tuto 1 : Ingestion, Manipulation et Analyse d'un grand volume de données | Big Data
zhlédnutí 1,9KPřed 4 měsíci
Dans le paysage actuel de l'analyse de données en entreprise, la manipulation et l'analyse de gros volumes de données #bigdata sont devenus monnaie courante. C'est là que #pyspark entre en jeu. PySpark est un outil puissant qui offre une solution efficace pour travailler avec des ensembles de données massifs, et c'est pourquoi il est devenu indispensable pour tout professionnel des données. Que...
"Dockerisation" d'une application python (Streamlit) | Docker Image | Docker Container | Docker Hub
zhlédnutí 1,9KPřed 5 měsíci
Docker est une plateforme logicielle qui permet de créer, déployer et exécuter des applications dans des conteneurs. Un conteneur est une unité logicielle légère et portable qui encapsule une application et toutes ses dépendances, y compris les bibliothèques système, les outils et les fichiers de configuration nécessaires à son fonctionnement. #docker fournit un environnement isolé pour exécute...
Comment détecter la dérive des données lors de la formation d'un modèle Machine Learning ?
zhlédnutí 463Před 5 měsíci
Connais-tu le phénomène de Data Drift ? Il s'agit de la dérive des données. La Dérive des données se produit lorsqu'il y a un changement dans les propriétés statistiques des variables utilisées comme caractéristiques. Par exemple, si l'âge est une caractéristique utilisée dans le modèle, mais que seules des données pour les 16-24 ans sont disponibles pendant l'entraînement, et que le système co...
Comment automatiser le téléchargement des fichiers de données Big Data avec Python ? (partie 2/2)
zhlédnutí 556Před 5 měsíci
Comment automatiser le téléchargement des fichiers de données Big Data avec Python ? (partie 2/2)
Comment automatiser le téléchargement des fichiers de données Big Data avec Python ? (partie 1/2)
zhlédnutí 1,2KPřed 5 měsíci
Comment automatiser le téléchargement des fichiers de données Big Data avec Python ? (partie 1/2)
Analyse de sentiments avec un modèle Machine Learning pré-entraîné de Hugging Face
zhlédnutí 933Před 5 měsíci
Analyse de sentiments avec un modèle Machine Learning pré-entraîné de Hugging Face
Application Machine Learning pour la reconnaissance de chiffres manuscrits
zhlédnutí 857Před 5 měsíci
Application Machine Learning pour la reconnaissance de chiffres manuscrits
Comment construire une application de recommandation de films comme Netflix ?
zhlédnutí 1,6KPřed 5 měsíci
Comment construire une application de recommandation de films comme Netflix ?
Déployez un environnement de développement en R avec RStudio et gérer vos projets avec Git et GitHub
zhlédnutí 376Před 7 měsíci
Déployez un environnement de développement en R avec RStudio et gérer vos projets avec Git et GitHub
Maîtrisez Flexdashboard pour rédiger des Présentations de Soutenance de Qualité | RMarkdown, RStudio
zhlédnutí 748Před 7 měsíci
Maîtrisez Flexdashboard pour rédiger des Présentations de Soutenance de Qualité | RMarkdown, RStudio
Déployez un Environnement Python : Visual Studio Code, Bash, Git , GitHub + environnement virtuel
zhlédnutí 1,6KPřed 7 měsíci
Déployez un Environnement Python : Visual Studio Code, Bash, Git , GitHub environnement virtuel
WebScraping des données boursières avec BeautifulSoup et Python : cas du NIKKEI225
zhlédnutí 484Před 7 měsíci
WebScraping des données boursières avec BeautifulSoup et Python : cas du NIKKEI225
Initiation aux Fonctions Asynchrones en Python avec le package asyncio
zhlédnutí 663Před 7 měsíci
Initiation aux Fonctions Asynchrones en Python avec le package asyncio
Comment scraper les données boursières du S&P500, CAC40, DAX, FTSE100 et NIKKEI225 ?
zhlédnutí 335Před 7 měsíci
Comment scraper les données boursières du S&P500, CAC40, DAX, FTSE100 et NIKKEI225 ?
Je développe ma propre Application Web de Trading sur les marchés financiers avec Python [Episode 3]
zhlédnutí 480Před 7 měsíci
Je développe ma propre Application Web de Trading sur les marchés financiers avec Python [Episode 3]
Prévision du prix du Bitcoin grâce au Machine Learning avec Python et Meta Prophet
zhlédnutí 746Před 7 měsíci
Prévision du prix du Bitcoin grâce au Machine Learning avec Python et Meta Prophet
Je développe ma propre Application Web de Trading sur les marchés financiers avec Python [Episode 2]
zhlédnutí 849Před 8 měsíci
Je développe ma propre Application Web de Trading sur les marchés financiers avec Python [Episode 2]
Je développe ma propre Application Web de Trading sur les marchés financiers avec Python [Episode 1]
zhlédnutí 611Před 8 měsíci
Je développe ma propre Application Web de Trading sur les marchés financiers avec Python [Episode 1]
Application web Python de détection des défauts de paiement de crédits bancaires | Episode 2
zhlédnutí 919Před 8 měsíci
Application web Python de détection des défauts de paiement de crédits bancaires | Episode 2
Détection des Défauts de paiements de crédits bancaires : Modèle de Machine Learning | Episode 1
zhlédnutí 2,2KPřed 8 měsíci
Détection des Défauts de paiements de crédits bancaires : Modèle de Machine Learning | Episode 1
Devenez Développeur d'applications web avec Python sans connaissances en HTML, CSS ni JavaScript
zhlédnutí 2,1KPřed 9 měsíci
Devenez Développeur d'applications web avec Python sans connaissances en HTML, CSS ni JavaScript
Comment créer une application R Shiny pour les prévisions de ventes de produits en Pharmacie ?
zhlédnutí 914Před 10 měsíci
Comment créer une application R Shiny pour les prévisions de ventes de produits en Pharmacie ?
Application Web R Shiny pour Pharmacies : Maîtrisez les Prévisions de Vente et Optimisez les Stocks
zhlédnutí 366Před 10 měsíci
Application Web R Shiny pour Pharmacies : Maîtrisez les Prévisions de Vente et Optimisez les Stocks
WebScraping des données boursières du CAC40 avec Python [Tutoriel complet]
zhlédnutí 953Před 10 měsíci
WebScraping des données boursières du CAC40 avec Python [Tutoriel complet]
Robo Advisor avec Streamlit : Investir intelligemment en bourse et optimisez votre portefeuille
zhlédnutí 740Před 10 měsíci
Robo Advisor avec Streamlit : Investir intelligemment en bourse et optimisez votre portefeuille
Tutoriel API météo en R : Obtenez les données météorologiques en temps réel avec OpenWeatherMap
zhlédnutí 1,6KPřed 10 měsíci
Tutoriel API météo en R : Obtenez les données météorologiques en temps réel avec OpenWeatherMap
Data Engineering avec R et SQLite : Création d'une Base de Données et Chargement des Données
zhlédnutí 639Před 10 měsíci
Data Engineering avec R et SQLite : Création d'une Base de Données et Chargement des Données
Prévision d'une série temporelle avec Facebook Prophet | #timeseries | video 17
zhlédnutí 654Před 10 měsíci
Prévision d'une série temporelle avec Facebook Prophet | #timeseries | video 17
Facebook Prophet pour la prévision automatisée de séries temporelles | #timeseries | video16
zhlédnutí 515Před 10 měsíci
Facebook Prophet pour la prévision automatisée de séries temporelles | #timeseries | video16

Komentáře

  • @StephCoul
    @StephCoul Před dnem

    Par contre l'audio n'est pas top top

  • @christroy7684
    @christroy7684 Před dnem

    Bonjour grand tu vas bien j’espère ! Stp j’ai 2 questions en tant que débutant dans la data science et ce sont vos cours que je suis. Lorsqu’on sera en entreprise et qu’on nous donnera une fiche ou un fichier de données , comment on s’aura qu’on doit faire du SQL ou de la statistique ou ML etc ? Si on doit faire la statistique , ils vont préciser pour dire comment on doit faire , exemple faites des histogrammes… ? Merci de me répondre grand .

  • @ivanyoutchou305
    @ivanyoutchou305 Před 2 dny

    s'il j'ai un soucis et j'aimerais avoir ton expertise

  • @souleymanendoye997
    @souleymanendoye997 Před 2 dny

    Merci et bravo pour ce magnifique travail.

  • @Sung-saChancardBikey

    Que Dieu te bénisse

  • @thekenph
    @thekenph Před 3 dny

    Merci beaucoup pour la vidéo. Pourriez s'il vous plaît faire une vidéo sur les systèmes de recommandation des e-commerces?

  • @thierykappe5586
    @thierykappe5586 Před 4 dny

    Top top ce tutoriel, merci beaucoup

  • @amuskakatumwa5384
    @amuskakatumwa5384 Před 7 dny

    Merci pour ce cours.

  • @habibkpengou2019
    @habibkpengou2019 Před 8 dny

    Merci 🙏🏽

    • @RealProDatascience
      @RealProDatascience Před 8 dny

      N'oubliez pas de vous inscrire à la formation. Lien en descriptif de la vidéo 🙂

  • @aboubacarouattara3590

    Merci d'avance🎉

    • @RealProDatascience
      @RealProDatascience Před 8 dny

      N'oubliez pas de vous inscrire à la formation. Lien en description de la vidéo.

  • @souleymanendoye997
    @souleymanendoye997 Před 10 dny

    Un grand merci. Excellent tuto.

  • @hatumvictoire214
    @hatumvictoire214 Před 12 dny

    Merci beaucoup cher frère

  • @FredyHOUNDAYI
    @FredyHOUNDAYI Před 12 dny

    Je crois bien que pour l'évaluation des performances modèles il faudrait privilégier dans ce contexte d'étude les modèles ac mes meilleures score de "Recall" et de "Precision" car étant des métriques qui visent respectivement à minimiser les faux négatifs et les faux positifs.

  • @Soli676
    @Soli676 Před 13 dny

    Une vidéo vraiment instructive Pouvez-vous m'expliquer les avantages de FastApi par rapport à Streamlit ?

  • @koffivictorienkoffi
    @koffivictorienkoffi Před 13 dny

    Merci beaucoup pour ce tutoriel....très bien expliqué, bravo

  • @mcr9648
    @mcr9648 Před 14 dny

    Je vous remercie pour votre série chronologique de tutos sur les séries chronologiques. Vous l'avez présentée de façon pédagogique, de plus, elle est dénuée de la composante "Erreur"😀. Grand merci.

  • @MathMentor-2024
    @MathMentor-2024 Před 14 dny

    Merci Josué, pour ces tutos de grandes valeurs.

  • @MathMentor-2024
    @MathMentor-2024 Před 14 dny

    Très bon exposé. Merci.

  • @MathMentor-2024
    @MathMentor-2024 Před 14 dny

    Fantastique. Un grand merci.

  • @sunrise8174
    @sunrise8174 Před 16 dny

    svp j'ai tres besoin de code de ce chatbot c'est urgent

  • @BrahmiYassine
    @BrahmiYassine Před 17 dny

    Merci

  • @radyoalmikyel6881
    @radyoalmikyel6881 Před 22 dny

    a priori y a erreur dans la transcription des catégories ages c est 60 et non 600 merci pour tout

  • @higiniofuentes2551
    @higiniofuentes2551 Před 24 dny

    Thank you for this very useful video!

  • @diallodaouda7858
    @diallodaouda7858 Před 26 dny

    salut Mr Josué Merci les superbes contenues que vous nous apporter svp j'aimerai que nous aider à obtenir le lien des fichiers pour la visualisation afin de bien suivre la formation complete

  • @geosciences5097
    @geosciences5097 Před 27 dny

    Si je veux les moyennes mobile chaque 5 c’est le même démarche?

  • @babatoundejeanne1681
    @babatoundejeanne1681 Před měsícem

  • @florentvagba4781
    @florentvagba4781 Před měsícem

    C'est agréable de voir de jeunes africains produire des contenus utiles et très bien faits. Bravo!

  • @bessanevolonte
    @bessanevolonte Před měsícem

    Je suis en économétrie mais je ne maitrise pas les logiciels❤❤❤

  • @diallodaouda7858
    @diallodaouda7858 Před měsícem

    MERCI MERCI LE DOYEN JE SUIT 5/5 TU NOUS OFFRE DU SIMPLE SYMPA

  • @nenwakwangeagnesliliane7189

    Bonjour Josué, Je souhaite m'abonner, mais j'ai quelques questions. Je vois que c'est 5 euros par mois ici, mais sur la vidéo de la pipeline, le prix est de 25 euros. Pouvez-vous m'expliquer la différence, s'il vous plaît? Je ne comprends pas très bien. Merci.

  • @warysmadia9074
    @warysmadia9074 Před měsícem

    J’ai la réponse dans votre vidéo.

  • @warysmadia9074
    @warysmadia9074 Před měsícem

    Merci pour ce partage ; est-il possible de faire la même chose avec Python ?

  • @RealProDatascience
    @RealProDatascience Před měsícem

    Vidéos utiles à regarder pour bien comprendre ce tuto : czcams.com/users/livecLyNGQTqcMc?feature=share czcams.com/video/W1ickBSX63w/video.html Lien du dockerfile : github.com/joshafouda/RShinyAppToAzure

  • @ib67987
    @ib67987 Před měsícem

    Merci c'est tellement claire!

  • @kriscillia
    @kriscillia Před měsícem

    C'est génial ! Merci beaucoup pour votre travail

    • @nenwakwangeagnesliliane7189
      @nenwakwangeagnesliliane7189 Před měsícem

      Bonjour, je voudrai savoir as tu souscrit à l'abonnement ?

    • @kriscillia
      @kriscillia Před měsícem

      @@nenwakwangeagnesliliane7189 Bonjour, pas encore mais je pense y souscrire à la fin du mois. Pourquoi ?

  • @user-kn6nj7tc6q
    @user-kn6nj7tc6q Před měsícem

    Merci pour la vidéo. En tant que datascientist qu'est ce que je dois maîtriser sur databrics ?

  • @cgc2300
    @cgc2300 Před měsícem

    super

  • @emmy6874
    @emmy6874 Před měsícem

    ces données sont facilement retrouvables sur internet les datalovers.

  • @sidattymohamedlemine5702
    @sidattymohamedlemine5702 Před měsícem

    Merci beaucoup. Vous avez travaillé sur quel logiciel ?

  • @njeckyfelixdesireeboumbou6343

    Salut j'ai installé streamlit correctement mais lorsque je lance streamlit hello sa me dit : la commande streamlit n'est pas recondu, j'utilise un windowns 11 et je ne comprend quand je regarde le tutoriel il y a des fichiers streamlit qui permet de faire fonctionner streamlit mais de moi côté ça ne créer aucun fichier comme tu fait pour avoir ces fichiers ?

  • @kouassiferdinandkouadio5820

    je vous remercie pour votre attention à notre égard, j'avoue que vos tutos sont toujours compréhensifs.

  • @PatrickLandryBLE
    @PatrickLandryBLE Před měsícem

    Bjr, Merci pour votre vidéo que j'ai suivi avec beaucoup d'intérêt . J'ai essayé votre code sur mes fichiers excel de données météo mais à ce niveau du code f= open("dossier/" + f_name .......) la concactenation ne passe pas . on me dit qu'on ne peut concatener une str et un int . Que faire , svp?

  • @RealProDatascience
    @RealProDatascience Před měsícem

    Source des données : data.cityofchicago.org/Public-Safety/Crimes-2001-to-Present/ijzp-q8t2/about_data Découvrez ce nouveau projet dans l'application DataPracticeHub : datapracticeapp.streamlit.app/ Pour apprendre PySpark : www.amazon.fr/gp/product/B0C9K6GTNH/ref=dbs_a_def_rwt_hsch_vamf_tkin_p1_i7

  • @yvaneken2653
    @yvaneken2653 Před měsícem

    Super... Je visiterais ce site pour m'entraîner... Vraiment merci pour ce que vous faites

  • @aboubacarkader4815
    @aboubacarkader4815 Před měsícem

    C'est vraiment intéressant mais si tu partages le dataset ça serait beaucoup plus intéressant

  • @emmy6874
    @emmy6874 Před měsícem

    Merci pour le partage

  • @emmy6874
    @emmy6874 Před měsícem

    c'est très clair merci

  • @yvessoke8558
    @yvessoke8558 Před měsícem

    merci et bravo

  • @yvessoke8558
    @yvessoke8558 Před měsícem

    bravo et merci

  • @yvessoke8558
    @yvessoke8558 Před měsícem

    bravo et merci