Ciencia de datos con PySpark: Proceso de datos en Streaming

Big Data | Procesar ficheros de datos JSON y CSV en Bash, Python y Java

Como diseñar el escalado y alta disponibilidad de servicios hasta el infinito

МЫ ОТМЫЛИ ОСКАРУ ПОПКУ 😍

English or Spanish 🤣

Mikuláš Černák: PŘÍBĚH BOSSE (celý dokument)

Apache Spark from scratch: RDDs, Aplicaciones, Broadcast y acumuladores

NullSafe Architect

zhlédnutí 10 896

Přidat do
- Můj playlist
- Přehrát později
Sdílet

Sdílet

Vložit

Velikost videa:

Zobrazit ovladače přehrávání

Automatické přehrávání

Přehrát

čas přidán 5. 09. 2024
Continuamos con la serie de vídeos sobre Apache Spark y hoy nos centraremos en los RDDs, lanzar aplicaciones y las variables broadcast y los acumuladores.

Komentáře • 22

@carloscorredor7542 Před měsícem ⁺¹
Este señor es una bendición
@pedroangel5974 Před 2 lety ⁺¹
"Otro" tutorial estupendo para seguir trasteando y aprendiendo con Spark. La duración de los tutoriales es un puntazo porque no acabas saturado y que la lección sea autocontenida facilita mucho las cosas. Muy fan de estos tutoriales.
@javiersuarez8604 Před 3 lety ⁺¹
Muchas gracias Alberto por compartir tus conocimientos con nosotros. Suena bien el video de la API de ML :-)
@asesoresoropeza Před 7 měsíci ⁺¹
genial tus videos
@cjbarroso Před rokem ⁺¹
Gracias
@miguelurgiles8393 Před rokem ⁺¹
Excelente tutorial, muy agradecido
@pablomosquera321 Před 3 lety ⁺¹
Buen video Albert, mucho ánimo y gracias por la info!
@franciscoadanarias9967 Před 3 lety ⁺¹
Muchas gracias, de gran ayuda.
Éxito!
@andresperezdominguezx5108 Před 3 lety ⁺¹
Me ha encantado Albert, sigue así
@gonzalosurribassayago4116 Před 3 lety ⁺¹
Excelente
@user-hf9lc2do1m Před rokem ⁺¹
Genial vídeo amigo
@mdchaparror10 Před 3 lety ⁺¹
Muchas gracias, excelente video
@DiegoAGM1086 Před 3 lety
Me imagino creando un makefile con estos comandos así solo hacemos: make comando y listo, bueno cuando sea aplicable jeje
@melinaballario2649 Před 2 lety
muy buenas tus explicaciones, pero creo que deberias hacer el tutorial en jupyter notebook que es la herramienta mas usada para ciencia de datos. Es incomodo verlo en la consola
@lmarquez2023 Před 3 lety ⁺²
¿Qué ventajas nos da RDD para procesamiento vs DataFrames?
@NullSafeArchitect Před 3 lety ⁺¹
Los RDD se procesan en paralelo en distintas máquinas del cluster, es mucho mas escalable.
@istorboi Před 2 lety ⁺⁴
@@NullSafeArchitect No estoy conforme contigo, los data frame también se procesan en paralelo y de manera distribuida. los RDD salieron con la version Spark 1.0 y posteriormente sacaron los data frames (v1.3) y dasta set (v.16). El uso de los RDD va quedando desfasado. Los Data sets proporcionan lo mejor de RDD y Dataframe: RDD (programación funcional, tipo seguro), DataFrame (modelo relacional, optimización de consultas, ejecución de tungsteno, clasificación y barajado)
@omaroto Před 11 měsíci ⁺¹
@NullSafeArchitect @@istorboi Buenas, así es. Venia buscando una aclaración en los comentarios ya que en este video se dice que solo los RDD se procesan de forma distribuida entre las máquinas del cluster. En la documentación se entiende que la estructura Dataset también se procesa de esta forma, además del resto de estructuras que manipula Spark, junto con las versiones en que se implementó como dice el comentario anterior. Me alegro de haber encontrado la confirmación aqui. Mi comentario es para consolidarla, no para recalcar un error que cualquiera puede cometer al grabar bien por desconocimiento, confusión o distracción. Para completar, además los Dataset también pueden ser almacenados (no solo procesados) de forma distribuida en las memorias del cluster. Gracias por el contenido, esperamos más con mucha ilusión ; ).
@franciscochacon4319 Před 9 měsíci
Creo, sin haberlo compilado ni nada, que lo de hacer el flatMap en el minuto 12:49 es innecesario. Yo creo que te da el mismo resultado si empleas un map. El product_id no es un array ni nada por el estilo, entonces no veo necesario hacer el flatmap. Te va a salir el mismo número de registros lo hagas con map o flatmap, o eso creo. Contestame si puedes, estoy muy intrigado con esto mismo. Entiendo la diferencia entre ambos, pero en este caso concreto creo que no hace falta usar flatmap.
@cascossi809 Před 3 lety ⁺¹
Jupyter
@rene2582 Před 7 měsíci ⁺¹
te agradezco por tus videos y los comparto lo más que puedo pero por favor estudia algo de inglés, primero porque todos lo que tu usas está en inglés y segundo porque es triste oirte pronunciar "como se escribe".
@edvargas2009 Před rokem
Buen día, genial el tema, genial la forma como lo explicas; encontré un error siguiendo el tutorial el lines.collect()...alguna idea?
22/12/15 14:59:12 ERROR Executor: Exception in task 8.0 in stage 12.0 (TID 207)
org.apache.spark.api.python.PythonException: Traceback (most recent call last):

Další v pořadí

Automatické přehrávání

Ciencia de datos con PySpark: Proceso de datos en Streaming

Ciencia de datos con PySpark: Proceso de datos en Streaming

Big Data | Procesar ficheros de datos JSON y CSV en Bash, Python y Java

Big Data | Procesar ficheros de datos JSON y CSV en Bash, Python y Java

Como diseñar el escalado y alta disponibilidad de servicios hasta el infinito

Como diseñar el escalado y alta disponibilidad de servicios hasta el infinito

МЫ ОТМЫЛИ ОСКАРУ ПОПКУ 😍

МЫ ОТМЫЛИ ОСКАРУ ПОПКУ 😍

English or Spanish 🤣

English or Spanish 🤣

Mikuláš Černák: PŘÍBĚH BOSSE (celý dokument)

Mikuláš Černák: PŘÍBĚH BOSSE (celý dokument)

Only Pro Knows this technique! Expert Hacks for Steel Ruler #shorts #diy #tips #tricks

Only Pro Knows this technique! Expert Hacks for Steel Ruler #shorts #diy #tips #tricks

What Is RDD In Spark? | Apache Spark RDD Tutorial | Apache Spark Training | Edureka

What Is RDD In Spark? | Apache Spark RDD Tutorial | Apache Spark Training | Edureka

Tutorial ArgoCD: Aprende despliegue continuo con GitOps

Tutorial ArgoCD: Aprende despliegue continuo con GitOps

How to Run a Spark Cluster with Multiple Workers Locally Using Docker

How to Run a Spark Cluster with Multiple Workers Locally Using Docker

Como montar un cluster de Apache Spark

Como montar un cluster de Apache Spark

Dynamic Partition Pruning in Apache Spark

Dynamic Partition Pruning in Apache Spark

DataScience con PySpark I: Apache Spark, Python, DataFrames y RDDs

DataScience con PySpark I: Apache Spark, Python, DataFrames y RDDs

Aplicaciones Big Data y Data Science sobre Apache Spark

Aplicaciones Big Data y Data Science sobre Apache Spark

Introducción y sistema de detección de fraude bancario con Apache Flink

Introducción y sistema de detección de fraude bancario con Apache Flink

Hadoop vs Spark | Hadoop And Spark Difference | Hadoop And Spark Training | Simplilearn

Hadoop vs Spark | Hadoop And Spark Difference | Hadoop And Spark Training | Simplilearn

Running With Bigger And Bigger Feastables

Running With Bigger And Bigger Feastables

KAŽDÝ MŮŽE RAPOVAT (bohužel)

KAŽDÝ MŮŽE RAPOVAT (bohužel)

Lamine Yamal and his little brother 😍 #fcbarcelona #LamineYamal #shorts

Lamine Yamal and his little brother 😍 #fcbarcelona #LamineYamal #shorts

МЫ ОТМЫЛИ ОСКАРУ ПОПКУ 😍

МЫ ОТМЫЛИ ОСКАРУ ПОПКУ 😍

The dog made the right choice#Short #Officer Rabbit #angel

The dog made the right choice#Short #Officer Rabbit #angel

Proč první Deadpool nemĕl ústa? #deadpool #wolverine #shorts

Proč první Deadpool nemĕl ústa? #deadpool #wolverine #shorts

Starman part 2.

Starman part 2.

POV: Já VS budík, při prvním školním dnu 🥹 #fyp #school #marcel

POV: Já VS budík, při prvním školním dnu 🥹 #fyp #school #marcel