Cómo Usar Datasets Públicos en BigQuery | Curso Google Cloud Professional Data Engineer

Cómo Usar Datasets Públicos en BigQuery

Autor: Eduardo Martínez Agrelo

Una de las herramientas más poderosas y a menudo subestimadas para aprender y desarrollar en Google Cloud es el programa de Datasets Públicos de BigQuery. Google aloja una gran colección de conjuntos de datos del mundo real, desde datos genómicos hasta registros meteorológicos o commits de GitHub, y los pone a tu disposición para que los explores directamente desde la consola.

El Poder de los Datos Reales a tu Alcance

Los datasets públicos son un recurso invaluable para cualquier Ingeniero de Datos, ya sea principiante o experto. Permiten saltarse el a menudo tedioso proceso de adquisición y limpieza de datos (ETL) y pasar directamente a lo que importa: el análisis y la construcción de pipelines.

Algunas de sus ventajas clave son:

  • Aprendizaje práctico con SQL: No hay mejor manera de dominar SQL que trabajando con datos reales, complejos y a gran escala. Puedes practicar desde consultas simples hasta funciones de ventana complejas y uniones masivas.
  • Proyectos para tu portfolio: Puedes usar estos datos como base para crear proyectos impresionantes para tu portfolio en GitHub, como análisis exploratorios, dashboards o incluso modelos de machine learning.
  • Entendimiento de esquemas de datos: Explorar cómo están estructurados estos datasets te da una visión práctica sobre el diseño de modelos de datos y esquemas en el mundo real.
  • Sin coste de almacenamiento: Google cubre el coste de almacenar todos estos petabytes de datos. Tú solo pagas por las consultas que ejecutas.

Tus Primeras Consultas y el Modelo de Costes

Empezar es muy sencillo. Desde la interfaz de usuario de BigQuery en la Google Cloud Console, puedes añadir y explorar los datasets públicos con unos pocos clics. Una vez añadido un dataset, puedes inspeccionar sus tablas, ver los esquemas y empezar a escribir consultas SQL en el editor.

Es fundamental entender el modelo de precios: aunque el almacenamiento es gratuito, pagas por los datos procesados en tus consultas. Sin embargo, BigQuery ofrece un nivel de uso gratuito muy generoso: el primer terabyte (1 TB) de datos de consulta procesados cada mes es gratis. Esto es más que suficiente para aprender, experimentar y desarrollar la mayoría de los proyectos del curso sin incurrir en costes.

Conclusión: Un Laboratorio de Datos Ilimitado

Los datasets públicos transforman BigQuery en un laboratorio de datos sin precedentes. Te dan la libertad de formular preguntas, probar hipótesis y construir soluciones sobre datos masivos y relevantes. Para un Ingeniero de Datos en formación, son la herramienta perfecta para afianzar conocimientos, ganar confianza y, lo más importante, empezar a construir un portfolio que demuestre tus habilidades prácticas desde el primer día.

Descarga aquí el código de la lección
Click aquí para visualizar el vídeo de la lección en YouTube