Spark: Analítica Avanzada (Silver to Gold) | Curso Spark, Scala y Terraform

Spark: Analítica Avanzada (Silver to Gold)

Autor: Eduardo Martínez Agrelo

Hemos llegado a la cima de la pirámide de nuestra Arquitectura Medallón: la Capa Oro (Gold). Aquí es donde los datos crudos, ya limpios y estandarizados, se convierten en información de valor estratégico. En este laboratorio, responderemos a la pregunta del CEO: "¿Cuáles son las 3 canciones más escuchadas por país y por día?".

Dominando las Window Functions

Un GROUP BY convencional es insuficiente para esta tarea porque colapsaría el detalle de nuestras canciones. Para obtener un ranking sin perder la granularidad de los datos, utilizamos las Funciones de Ventana (Window Functions):

  • Partitioning: Dividimos nuestros datos en "ventanas" lógicas o cajas (por ejemplo, una caja para España, otra para México).
  • Ordering: Dentro de cada caja, ordenamos las canciones basándonos en su número de reproducciones.
  • Ranking: Con la función rank() o row_number(), asignamos una posición (1, 2, 3...) a cada canción y filtramos los resultados para quedarnos solo con el Top 3.

Del procesamiento al reporte analítico

Esta es la prueba definitiva de un Data Engineer. No solo se trata de procesar datos, sino de entregarlos de forma que sean consumibles por un sistema de BI (como Looker o PowerBI):

  • Optimización de la salida: La capa Gold debe ser pequeña, ágil y altamente consultable.
  • Claridad de negocio: Transformamos métricas técnicas complejas en un reporte sencillo que cualquier stakeholder puede entender.

Implementación práctica

En este laboratorio, ejecutaremos el Job en Dataproc utilizando las Window de Spark. Verás cómo, tras el procesamiento, obtenemos una tabla final perfectamente estructurada y lista para la toma de decisiones.

Conclusión: Ingeniería enfocada al negocio

Has completado el flujo completo: desde la infraestructura (Terraform) hasta la entrega de valor al negocio (Gold). Ahora comprendes cómo los Data Engineers transforman el caos en conocimiento. Pero no te detengas aquí; el siguiente paso es romper el "muro del junior" aprendiendo a optimizar el rendimiento y aplicar testing profesional.

Newsletter GCP
¿Quieres estar al día con las últimas novedades de Google Cloud Platform? ¡Suscríbete y no te pierdas nada!