DataScience con PySpark I: Apache Spark, Python, DataFrames y RDDs

Sdílet
Vložit
  • čas přidán 21. 03. 2021
  • Empezamos con Apache Spark, herramienta líder para analítica de datos con BigData, Ingeniería de datos, etc. Todo el código y explicación en mi blog albert coronado punto com.

Komentáře • 63

  • @NullSafeArchitect
    @NullSafeArchitect  Před 3 lety +17

    Tenéis disponible el código en el blog www.albertcoronado.com/2021/03/18/datascience-con-pyspark-i-apache-spark-python-dataframes-y-rdds/ ! Si os a gustado y tenéis ganas de echar un cable compartid en Twitter, Linkedin, Grupos de Discord, Whatsapp con vuestros compañeros de Estudios, trabajo y a todo aquel al que le pueda interesar!

  • @herzt5
    @herzt5 Před 3 lety +5

    La mejor manera de apoyar estos canales es dando manita arriba, comentando, compartiendo y viendo los comerciales. Gracias

  • @sebastianpaez2505
    @sebastianpaez2505 Před 2 lety +4

    A los 6min ya estoy fascinado con tus explicaciones. Se agradece muchisimo!

  • @Ravi.Kumar-
    @Ravi.Kumar- Před rokem +1

    Thanks a lot. I’m able to grasp it well. No one showed me how to do it on big data like you did. 🙏 🎉

  • @juanmadev
    @juanmadev Před 3 lety +3

    Muy interesante el vídeo, la verdad que es este mundo antes de ponerte a ello se ve como una montaña y luego de ir viendo vídeos como este se ve más accesible

  • @ruedmo
    @ruedmo Před 3 lety +2

    Muchas gracias por compartir uno de los mejores de la red. Te auguro mucho éxito

  • @THEAIMODEL
    @THEAIMODEL Před 2 lety +1

    Muchas gracias por tus videos. Van al grano y bien explicados!! ♥

  •  Před 3 lety +1

    Genial, Albert. Muy bien explicado y planteado. Con tutoriales, ebooks y documentación oficial es un poco lioso, pero lo has dejado muy claro y fácil. Muchas gracias por estos vídeos.

  • @mariusserban5643
    @mariusserban5643 Před 2 lety +4

    Yo he aprobado la 2ª Evaluación de Sistemas del grado superior de DAW gracias al video de comandos y scripts en la bash (consistía todo el examen en hacer scripts de la bash), 50 minutos, una evaluación. La 3ª Evaluación, también de sistemas, gracias a los cursos de docker y apache spark. He recomendado tu canal a todos mis compañeros e incluso a mi profesor. Enhorabuena por tus vídeos y muchas gracias!

  • @pedroangel5974
    @pedroangel5974 Před 2 lety +1

    Muy buena introducción a la herramienta de Apache Spark. EL tutorial es fácil de seguir, tiene ejemplos con los que romper mano muy interesantes y sencillos. No es el primer tutorial de Albert que sigo y todos me han resultado muy útiles y amigables. Enhorabuena por tu trabajo Albert! Ojalá sigas haciendo más tutoriales.

  • @Amamaster
    @Amamaster Před 3 lety +1

    Wow, que gran contenido! Súper bien explicar 👏🏻👏🏻👏🏻👏🏻👏🏻

  • @lesterjuandediosvillarzamo7435

    Excelente Albert, gracias

  • @daesvideo
    @daesvideo Před 2 lety +1

    Muy ejemplificado, muy bien, gracias!

  • @akuland920
    @akuland920 Před rokem

    EXCELENTE Albert. Simplemente espectacular. ¿No estás compartiendo mas videos?

  • @aarce2
    @aarce2 Před 3 lety +1

    Genial, yo he estado trabajando 2 años con Spark, tanto haciendo cositas con MLlib, como creando Streams para procesar eventos desde colas Kafka pero con Apache Beam en Java ejecutando en un cluster de Spark en Azure y es superpotente, ahora, tunear bien los Jobs (asignar recursos) para ejecutarlos en un cluster de streaming sin problemas da bastantes dolores de cabeza , quizá por eso Databricks está pegando fuerte. Sigue por favor con la serie y muchas gracias

  • @fernandomartinez2834
    @fernandomartinez2834 Před rokem +1

    gracias me ayudo mucho estoy empezando en esto

  • @stefanor.g550
    @stefanor.g550 Před 3 lety +1

    he aprendido mucho, gracias

  • @CharlyRoseroC
    @CharlyRoseroC Před 3 lety +5

    Albert excelente contenido, muchas gracias. en el próximo video ¿nos explicaras las funciones para trabajar con RDD?

  • @matiasbravo6649
    @matiasbravo6649 Před 8 měsíci +1

    Excelente trabajo

  • @seguracuatepozoricardo5535

    Excelente video!!!

  •  Před 3 lety +2

    Excelente

  • @victorgastaneta3008
    @victorgastaneta3008 Před 7 měsíci +1

    Gracias, muy didactico

  • @ibrahincruz2895
    @ibrahincruz2895 Před 3 lety

    Muchas gracias por el video muy bien explicado, solo me quedo la duda de si al convertir el dataframe ya no se procesa en paralelo en los demas nodos, muchas gracias!

  • @frangzzv2213
    @frangzzv2213 Před 3 lety +1

    Increíble...!

  • @juancuevas4405
    @juancuevas4405 Před 2 lety +1

    estimado su tutorial debe actualizarlo desde la linea de comandos todo desactualizado

  • @mdchaparror10
    @mdchaparror10 Před 3 lety +3

    Excelente vídeo muchas gracias, creo que se podría configurar pyspark para que inicie un notebook de júpiter , lo que ayudaría un poco a la visualización de los ejemplos explicados,

  • @insecureup
    @insecureup Před 11 měsíci +1

    Muy interesante, te propongo una serie de videos apache druid, no hay nada en español para youtube.

  • @kmiiloberrio-dev
    @kmiiloberrio-dev Před 3 lety +2

    Hola albert, gracias por compartir se te entiende muy bien, pero me gustaría empezar de cero, tienes alguna lista de reproducción? porque veo que en este video aterrizas conceptos que tal vez ya existieron en algún otro video. de antemano muchas gracias.

  • @JuanMunoz-we1ep
    @JuanMunoz-we1ep Před 2 lety

    Antes había visto el video donde trabajas con Hadoop, pero solo vi el 30%, porque trabajabais con Linux, (que no lo sé) y otras cosas que no entendía nada. Hoy ya he madurado más cosas de big data y he comprendido todo lo que has compartido y lo encontré clarísimo, muy didáctico y accesible, mis felicitaciones. Lo he visto anoche y de nuevo lo revisado hoy en la mañana, porque quedé enganchado. Pero hay algo que todavía no se, Linux. Por lo tanto mi pregunta es la siguiente: ¿puedo hacer esto mismo en Window?. Estaré eternamente agradecido por vuestra respuesta y que Dios te multiplique siempre.

  • @alonsolr
    @alonsolr Před 3 lety +1

    Muy bien... gracias

  • @jaime4leon
    @jaime4leon Před 2 lety +1

    Buenísimo

  • @ukiomaro
    @ukiomaro Před 3 lety +5

    Buenas Albert, Scala no solo es interpretado, también puede ser compilado tanto con Maven como con SBT. SI bien con spark-shell, logras que sea "interpretado" tienes las otras posibilidades. Añadir, que el mismo Spark esta desarrollado en Scala.

    • @UnDiaDeBronca
      @UnDiaDeBronca Před rokem

      Si es opción, pero es un paso más a además se generan muchas piezas, la primera vez que me acerque a spark lo hice así, y es mas trabajo, el formato de interprete es más rápido y versionas menos piezas y hay menos uso de disco al no generar binarios

  • @cristianch9460
    @cristianch9460 Před 2 lety

    Me gustaría q te mandaras con un vídeo para crear y usar udf's sería un éxito

  • @mauropereyra591
    @mauropereyra591 Před měsícem

    Hola! Me encantan tus vídeos. Tengo una consulta, los Dataframes realmente solo trabajan en una maquina? Porque según leo la documentación tanto RDD's y Dataframes creo entender que pueden funcionar de manera distribuida. Muchas gracias!

  • @UnDiaDeBronca
    @UnDiaDeBronca Před rokem

    Excelente video, falto la parte de rdd en pyspark , conexion a base de datos y levantar un rdd o data frame a partir de una tabla, y por otro lado un despliegue de un programa pyspark ejecutando con spark-submit. No es lo mismo ejecutar codigo directo en pyspark y luego ejecutarlo por spark-submit., que nos puedes contar al respecto Nullsafe Architect

  • @fernandoverri1242
    @fernandoverri1242 Před rokem

    Hola muy buenos tus videos, estoy arrancando a usar pyspark y me resulto muy fácil gracias a tus videos. Quería consultarte como poder ejecutar todos estos comando desde un archivo .py. Si es que se puede

  • @gquisbert
    @gquisbert Před 2 lety

    Espero puedas responder, tengo Oracle 19c y NO puede realizar la conexion, buscando lei por ahi que NO es compatible aun Spark y Oracle 19c. Me gustaria conocer si sabes algo acerca la compatibilidad y si es posible realizar esta conexion?

  • @magelatorres3494
    @magelatorres3494 Před 3 měsíci

    hola, ¿hay alguna forma de "unir" todos esos ficheros csv que genera "products.write.mode(“overwrite”).csv..." en un único fichero CVS? Gracias

  • @davidaarondiazescamilla2411
    @davidaarondiazescamilla2411 Před 10 měsíci +1

    Excelente tutorial, una pregunta: ¿cual es el video para descargar Apache Spark?

  • @juanete69
    @juanete69 Před 2 lety

    Cuando lee los archivos con *.csv... ¿los concatena?

  • @fannyhernandezramirez3306

    Como conviertes el mes a número en las fechas ?

  • @yeiferrodriguez3434
    @yeiferrodriguez3434 Před rokem

    Hola Me puedes indicar cual es la cam con la cual grabas los videos?, gracias.

  • @malecruzs
    @malecruzs Před 3 měsíci

    Soy nueva en pypark y cuando intento cargar todos los .parquet que tengo dentro de una ruta me arroja este error py4j.protocol.Py4JJavaError: An error occurred while calling o44.parquet.
    alguien sabe como lo puedo solucioanr?

  • @deantonio09
    @deantonio09 Před 2 lety

    A alguien le ha ocurrido un error que indica JAVA_HOME is not set? he buscado en varios sitios y no encuentro solución. De antemano gracias por la ayuda!

  • @abelsena830
    @abelsena830 Před rokem

    que hace pyspark que no podemos hacer con pandas ?

  • @luisandraschnik3001
    @luisandraschnik3001 Před 2 lety

    Hola Alberto no entiendo la diferencia entre Apache Spark y Pandas? Sdos

  • @mateoguerrerorestrepo9127

    Muy interesante apache spark muchas gracias Albert. Maestro una pregunta si se aumenta un worker más el proceso sería más rápido o es indiferente ya que el dataframe no es paralelizable?

    • @NullSafeArchitect
      @NullSafeArchitect  Před 3 lety +1

      Con DataFrames es indiferente. Con RDDs si que sería mas rápido

  • @BrunoSarverry
    @BrunoSarverry Před 3 lety +1

    Muy bueno Albert! Por curioso: cuánta RAM tiene la notebook donde mostraste el uso de esta herramienta?

  • @Gonza2432
    @Gonza2432 Před 3 lety +1

    Hola! Que curso me recomendarías para arrancar desde cero con Spark?

  • @gonzalosurribassayago4116

    Hola excelente video me puedes ayudar si coloco
    df = spark.read.options(header='True', inferSchema='True').csv("/dataset/*.csv")
    se queda
    y si coloco
    df = spark.read.options(header='True', inferSchema='True').csv("/dataset/2019-Oct.csv")
    uno por uno lo carga como hago para que se sumen todos en el df porque asi me guarda el ultimo nada mas

    • @gonzalosurribassayago4116
      @gonzalosurribassayago4116 Před 3 lety +1

      Hola lo hice en Linux y no tuve ningún problema en windows solo me los leía uno por uno

  • @bananaallin3597
    @bananaallin3597 Před 3 měsíci

    8:59

  • @ManuelVillanueva
    @ManuelVillanueva Před rokem +1

    Hola buen dia, el sitio esta caido, podria subir subir el codigo a github por favor?

  • @joelgaspar5365
    @joelgaspar5365 Před rokem +1

    Tu página esta caida, amigo

  • @aniballinares5555
    @aniballinares5555 Před 3 lety

    Excelente Albert, gracias