![J.A DATATECH CONSULTING](/img/default-banner.jpg)
- 513
- 851 496
J.A DATATECH CONSULTING
France
Registrace 25. 03. 2020
J.A. DATATECH CONSULTING démocratise l'accès aux domaines de la DATA avec des formations personnalisées, bien structurées, une pédagogie individualisée et des projets réels. Nos formations sont 100% pratiques et permettent de vite acquérir les compétences en Data Science, Machine Learning, programmation avec Python et R.
Retrouvez-nous sur notre :
- site web : josueafouda.shinyapps.io/jadatatechconsulting/
- chaîne CZcams : czcams.com/users/JADATATECHCONSULTING
- page Auteur Amazon KDP : www.amazon.fr/Josu%C3%A9-AFOUDA/e/B08F17S1V8/ref=dp_byline_cont_pop_ebooks_1
Retrouvez-nous sur notre :
- site web : josueafouda.shinyapps.io/jadatatechconsulting/
- chaîne CZcams : czcams.com/users/JADATATECHCONSULTING
- page Auteur Amazon KDP : www.amazon.fr/Josu%C3%A9-AFOUDA/e/B08F17S1V8/ref=dp_byline_cont_pop_ebooks_1
Présentation d'un Projet de Data Engineering : Pipeline ETL avec Python et PostgreSQL
La première étape de ce projet consiste à collecter des données sur les trajets en taxi de la ville de New York à partir de la source officielle fournie par la NYC Taxi and Limousine Commission (TLC).
Une fois les données collectées, le processus Extract, Transform, Load (ETL) est lancé pour préparer les données à l'intégration dans une base de données PostgreSQL. Voici les étapes détaillées du processus ETL :
Extraction:
Les données sont extraites des fichiers sources téléchargés depuis le site Web de TLC (www.nyc.gov/site/tlc/about/tlc-trip-record-data.page). En fait, ces fichiers sont au format PARQUET comme spécifié par la source.
Transformation:
Une fois les données extraites, elles subissent des transformations pour les nettoyer, les structurer et les préparer au chargement dans la base de données. Les transformations peuvent inclure le nettoyage des données en supprimant les doublons, en corrigeant les erreurs de format ou en gérant les valeurs manquantes. La structure des données peut également être modifiée pour correspondre au schéma de la base de données cible. Par exemple, les champs peuvent être renommés, reformatés ou combinés selon les besoins de l'analyse.
Chargement:
Une fois les données nettoyées et transformées, elles sont chargées dans une base de données PostgreSQL. Avant le chargement, le Data Scientist crée un schéma de base de données approprié pour stocker les données de trajet en taxi. Cela implique de définir les tables, les colonnes et les contraintes nécessaires pour garantir l'intégrité des données. Les données sont chargées dans la base de données à l'aide d'outils et de langages de programmation adaptés, tels que psycopg2 (pour Python) ou des commandes SQL.
Une fois cette première partie terminée, toutes les données de trajets en taxi seront intégrées et prêtes à être explorées et analysées dans la base de données PostgreSQL. Ce processus garantit que les données sont organisées de manière efficace et cohérente, facilitant ainsi les étapes ultérieures de l'analyse des données.
Comment automatiser le téléchargement des fichiers de données au format PARQUET pour les trajets en taxi jaune à New York : czcams.com/video/6Mzmg4E78R0/video.html
czcams.com/video/Qj4ssjqRZvk/video.html
Lien des codes de tout le processus #etl : buy.stripe.com/3cs186bZAgnofsYcN2
Une fois les données collectées, le processus Extract, Transform, Load (ETL) est lancé pour préparer les données à l'intégration dans une base de données PostgreSQL. Voici les étapes détaillées du processus ETL :
Extraction:
Les données sont extraites des fichiers sources téléchargés depuis le site Web de TLC (www.nyc.gov/site/tlc/about/tlc-trip-record-data.page). En fait, ces fichiers sont au format PARQUET comme spécifié par la source.
Transformation:
Une fois les données extraites, elles subissent des transformations pour les nettoyer, les structurer et les préparer au chargement dans la base de données. Les transformations peuvent inclure le nettoyage des données en supprimant les doublons, en corrigeant les erreurs de format ou en gérant les valeurs manquantes. La structure des données peut également être modifiée pour correspondre au schéma de la base de données cible. Par exemple, les champs peuvent être renommés, reformatés ou combinés selon les besoins de l'analyse.
Chargement:
Une fois les données nettoyées et transformées, elles sont chargées dans une base de données PostgreSQL. Avant le chargement, le Data Scientist crée un schéma de base de données approprié pour stocker les données de trajet en taxi. Cela implique de définir les tables, les colonnes et les contraintes nécessaires pour garantir l'intégrité des données. Les données sont chargées dans la base de données à l'aide d'outils et de langages de programmation adaptés, tels que psycopg2 (pour Python) ou des commandes SQL.
Une fois cette première partie terminée, toutes les données de trajets en taxi seront intégrées et prêtes à être explorées et analysées dans la base de données PostgreSQL. Ce processus garantit que les données sont organisées de manière efficace et cohérente, facilitant ainsi les étapes ultérieures de l'analyse des données.
Comment automatiser le téléchargement des fichiers de données au format PARQUET pour les trajets en taxi jaune à New York : czcams.com/video/6Mzmg4E78R0/video.html
czcams.com/video/Qj4ssjqRZvk/video.html
Lien des codes de tout le processus #etl : buy.stripe.com/3cs186bZAgnofsYcN2
zhlédnutí: 1 105
Video
PySpark tuto 1 : Ingestion, Manipulation et Analyse d'un grand volume de données | Big Data
zhlédnutí 1,9KPřed 4 měsíci
Dans le paysage actuel de l'analyse de données en entreprise, la manipulation et l'analyse de gros volumes de données #bigdata sont devenus monnaie courante. C'est là que #pyspark entre en jeu. PySpark est un outil puissant qui offre une solution efficace pour travailler avec des ensembles de données massifs, et c'est pourquoi il est devenu indispensable pour tout professionnel des données. Que...
"Dockerisation" d'une application python (Streamlit) | Docker Image | Docker Container | Docker Hub
zhlédnutí 1,9KPřed 5 měsíci
Docker est une plateforme logicielle qui permet de créer, déployer et exécuter des applications dans des conteneurs. Un conteneur est une unité logicielle légère et portable qui encapsule une application et toutes ses dépendances, y compris les bibliothèques système, les outils et les fichiers de configuration nécessaires à son fonctionnement. #docker fournit un environnement isolé pour exécute...
Comment détecter la dérive des données lors de la formation d'un modèle Machine Learning ?
zhlédnutí 463Před 5 měsíci
Connais-tu le phénomène de Data Drift ? Il s'agit de la dérive des données. La Dérive des données se produit lorsqu'il y a un changement dans les propriétés statistiques des variables utilisées comme caractéristiques. Par exemple, si l'âge est une caractéristique utilisée dans le modèle, mais que seules des données pour les 16-24 ans sont disponibles pendant l'entraînement, et que le système co...
Comment automatiser le téléchargement des fichiers de données Big Data avec Python ? (partie 2/2)
zhlédnutí 556Před 5 měsíci
Comment automatiser le téléchargement des fichiers de données Big Data avec Python ? (partie 2/2)
Comment automatiser le téléchargement des fichiers de données Big Data avec Python ? (partie 1/2)
zhlédnutí 1,2KPřed 5 měsíci
Comment automatiser le téléchargement des fichiers de données Big Data avec Python ? (partie 1/2)
Analyse de sentiments avec un modèle Machine Learning pré-entraîné de Hugging Face
zhlédnutí 933Před 5 měsíci
Analyse de sentiments avec un modèle Machine Learning pré-entraîné de Hugging Face
Application Machine Learning pour la reconnaissance de chiffres manuscrits
zhlédnutí 857Před 5 měsíci
Application Machine Learning pour la reconnaissance de chiffres manuscrits
Comment construire une application de recommandation de films comme Netflix ?
zhlédnutí 1,6KPřed 5 měsíci
Comment construire une application de recommandation de films comme Netflix ?
Déployez un environnement de développement en R avec RStudio et gérer vos projets avec Git et GitHub
zhlédnutí 376Před 7 měsíci
Déployez un environnement de développement en R avec RStudio et gérer vos projets avec Git et GitHub
Maîtrisez Flexdashboard pour rédiger des Présentations de Soutenance de Qualité | RMarkdown, RStudio
zhlédnutí 748Před 7 měsíci
Maîtrisez Flexdashboard pour rédiger des Présentations de Soutenance de Qualité | RMarkdown, RStudio
Déployez un Environnement Python : Visual Studio Code, Bash, Git , GitHub + environnement virtuel
zhlédnutí 1,6KPřed 7 měsíci
Déployez un Environnement Python : Visual Studio Code, Bash, Git , GitHub environnement virtuel
WebScraping des données boursières avec BeautifulSoup et Python : cas du NIKKEI225
zhlédnutí 484Před 7 měsíci
WebScraping des données boursières avec BeautifulSoup et Python : cas du NIKKEI225
Initiation aux Fonctions Asynchrones en Python avec le package asyncio
zhlédnutí 663Před 7 měsíci
Initiation aux Fonctions Asynchrones en Python avec le package asyncio
Comment scraper les données boursières du S&P500, CAC40, DAX, FTSE100 et NIKKEI225 ?
zhlédnutí 335Před 7 měsíci
Comment scraper les données boursières du S&P500, CAC40, DAX, FTSE100 et NIKKEI225 ?
Je développe ma propre Application Web de Trading sur les marchés financiers avec Python [Episode 3]
zhlédnutí 480Před 7 měsíci
Je développe ma propre Application Web de Trading sur les marchés financiers avec Python [Episode 3]
Prévision du prix du Bitcoin grâce au Machine Learning avec Python et Meta Prophet
zhlédnutí 746Před 7 měsíci
Prévision du prix du Bitcoin grâce au Machine Learning avec Python et Meta Prophet
Je développe ma propre Application Web de Trading sur les marchés financiers avec Python [Episode 2]
zhlédnutí 849Před 8 měsíci
Je développe ma propre Application Web de Trading sur les marchés financiers avec Python [Episode 2]
Je développe ma propre Application Web de Trading sur les marchés financiers avec Python [Episode 1]
zhlédnutí 611Před 8 měsíci
Je développe ma propre Application Web de Trading sur les marchés financiers avec Python [Episode 1]
Application web Python de détection des défauts de paiement de crédits bancaires | Episode 2
zhlédnutí 919Před 8 měsíci
Application web Python de détection des défauts de paiement de crédits bancaires | Episode 2
Détection des Défauts de paiements de crédits bancaires : Modèle de Machine Learning | Episode 1
zhlédnutí 2,2KPřed 8 měsíci
Détection des Défauts de paiements de crédits bancaires : Modèle de Machine Learning | Episode 1
Devenez Développeur d'applications web avec Python sans connaissances en HTML, CSS ni JavaScript
zhlédnutí 2,1KPřed 9 měsíci
Devenez Développeur d'applications web avec Python sans connaissances en HTML, CSS ni JavaScript
Comment créer une application R Shiny pour les prévisions de ventes de produits en Pharmacie ?
zhlédnutí 914Před 10 měsíci
Comment créer une application R Shiny pour les prévisions de ventes de produits en Pharmacie ?
Application Web R Shiny pour Pharmacies : Maîtrisez les Prévisions de Vente et Optimisez les Stocks
zhlédnutí 366Před 10 měsíci
Application Web R Shiny pour Pharmacies : Maîtrisez les Prévisions de Vente et Optimisez les Stocks
WebScraping des données boursières du CAC40 avec Python [Tutoriel complet]
zhlédnutí 953Před 10 měsíci
WebScraping des données boursières du CAC40 avec Python [Tutoriel complet]
Robo Advisor avec Streamlit : Investir intelligemment en bourse et optimisez votre portefeuille
zhlédnutí 740Před 10 měsíci
Robo Advisor avec Streamlit : Investir intelligemment en bourse et optimisez votre portefeuille
Tutoriel API météo en R : Obtenez les données météorologiques en temps réel avec OpenWeatherMap
zhlédnutí 1,6KPřed 10 měsíci
Tutoriel API météo en R : Obtenez les données météorologiques en temps réel avec OpenWeatherMap
Data Engineering avec R et SQLite : Création d'une Base de Données et Chargement des Données
zhlédnutí 639Před 10 měsíci
Data Engineering avec R et SQLite : Création d'une Base de Données et Chargement des Données
Prévision d'une série temporelle avec Facebook Prophet | #timeseries | video 17
zhlédnutí 654Před 10 měsíci
Prévision d'une série temporelle avec Facebook Prophet | #timeseries | video 17
Facebook Prophet pour la prévision automatisée de séries temporelles | #timeseries | video16
zhlédnutí 515Před 10 měsíci
Facebook Prophet pour la prévision automatisée de séries temporelles | #timeseries | video16
Par contre l'audio n'est pas top top
Bonjour grand tu vas bien j’espère ! Stp j’ai 2 questions en tant que débutant dans la data science et ce sont vos cours que je suis. Lorsqu’on sera en entreprise et qu’on nous donnera une fiche ou un fichier de données , comment on s’aura qu’on doit faire du SQL ou de la statistique ou ML etc ? Si on doit faire la statistique , ils vont préciser pour dire comment on doit faire , exemple faites des histogrammes… ? Merci de me répondre grand .
s'il j'ai un soucis et j'aimerais avoir ton expertise
Merci et bravo pour ce magnifique travail.
Que Dieu te bénisse
Merci beaucoup pour la vidéo. Pourriez s'il vous plaît faire une vidéo sur les systèmes de recommandation des e-commerces?
Top top ce tutoriel, merci beaucoup
Merci pour ce cours.
Merci 🙏🏽
N'oubliez pas de vous inscrire à la formation. Lien en descriptif de la vidéo 🙂
Merci d'avance🎉
N'oubliez pas de vous inscrire à la formation. Lien en description de la vidéo.
Un grand merci. Excellent tuto.
Merci beaucoup cher frère
Je crois bien que pour l'évaluation des performances modèles il faudrait privilégier dans ce contexte d'étude les modèles ac mes meilleures score de "Recall" et de "Precision" car étant des métriques qui visent respectivement à minimiser les faux négatifs et les faux positifs.
Une vidéo vraiment instructive Pouvez-vous m'expliquer les avantages de FastApi par rapport à Streamlit ?
Merci beaucoup pour ce tutoriel....très bien expliqué, bravo
Je vous remercie pour votre série chronologique de tutos sur les séries chronologiques. Vous l'avez présentée de façon pédagogique, de plus, elle est dénuée de la composante "Erreur"😀. Grand merci.
Merci Josué, pour ces tutos de grandes valeurs.
Très bon exposé. Merci.
Fantastique. Un grand merci.
svp j'ai tres besoin de code de ce chatbot c'est urgent
Merci
a priori y a erreur dans la transcription des catégories ages c est 60 et non 600 merci pour tout
Thank you for this very useful video!
salut Mr Josué Merci les superbes contenues que vous nous apporter svp j'aimerai que nous aider à obtenir le lien des fichiers pour la visualisation afin de bien suivre la formation complete
Si je veux les moyennes mobile chaque 5 c’est le même démarche?
❤
C'est agréable de voir de jeunes africains produire des contenus utiles et très bien faits. Bravo!
Je suis en économétrie mais je ne maitrise pas les logiciels❤❤❤
MERCI MERCI LE DOYEN JE SUIT 5/5 TU NOUS OFFRE DU SIMPLE SYMPA
Bonjour Josué, Je souhaite m'abonner, mais j'ai quelques questions. Je vois que c'est 5 euros par mois ici, mais sur la vidéo de la pipeline, le prix est de 25 euros. Pouvez-vous m'expliquer la différence, s'il vous plaît? Je ne comprends pas très bien. Merci.
J’ai la réponse dans votre vidéo.
Merci pour ce partage ; est-il possible de faire la même chose avec Python ?
Vidéos utiles à regarder pour bien comprendre ce tuto : czcams.com/users/livecLyNGQTqcMc?feature=share czcams.com/video/W1ickBSX63w/video.html Lien du dockerfile : github.com/joshafouda/RShinyAppToAzure
Merci c'est tellement claire!
C'est génial ! Merci beaucoup pour votre travail
Bonjour, je voudrai savoir as tu souscrit à l'abonnement ?
@@nenwakwangeagnesliliane7189 Bonjour, pas encore mais je pense y souscrire à la fin du mois. Pourquoi ?
Merci pour la vidéo. En tant que datascientist qu'est ce que je dois maîtriser sur databrics ?
super
ces données sont facilement retrouvables sur internet les datalovers.
Merci beaucoup. Vous avez travaillé sur quel logiciel ?
Salut j'ai installé streamlit correctement mais lorsque je lance streamlit hello sa me dit : la commande streamlit n'est pas recondu, j'utilise un windowns 11 et je ne comprend quand je regarde le tutoriel il y a des fichiers streamlit qui permet de faire fonctionner streamlit mais de moi côté ça ne créer aucun fichier comme tu fait pour avoir ces fichiers ?
je vous remercie pour votre attention à notre égard, j'avoue que vos tutos sont toujours compréhensifs.
Bjr, Merci pour votre vidéo que j'ai suivi avec beaucoup d'intérêt . J'ai essayé votre code sur mes fichiers excel de données météo mais à ce niveau du code f= open("dossier/" + f_name .......) la concactenation ne passe pas . on me dit qu'on ne peut concatener une str et un int . Que faire , svp?
Source des données : data.cityofchicago.org/Public-Safety/Crimes-2001-to-Present/ijzp-q8t2/about_data Découvrez ce nouveau projet dans l'application DataPracticeHub : datapracticeapp.streamlit.app/ Pour apprendre PySpark : www.amazon.fr/gp/product/B0C9K6GTNH/ref=dbs_a_def_rwt_hsch_vamf_tkin_p1_i7
Super... Je visiterais ce site pour m'entraîner... Vraiment merci pour ce que vous faites
C'est vraiment intéressant mais si tu partages le dataset ça serait beaucoup plus intéressant
Merci pour le partage
c'est très clair merci
merci et bravo
bravo et merci
bravo et merci