El Poder de los Datos Reales a tu Alcance
Los datasets públicos son un recurso invaluable para cualquier Ingeniero de Datos, ya sea principiante o experto. Permiten saltarse el a menudo tedioso proceso de adquisición y limpieza de datos (ETL) y pasar directamente a lo que importa: el análisis y la construcción de pipelines.
Algunas de sus ventajas clave son:
- Aprendizaje práctico con SQL: No hay mejor manera de dominar SQL que trabajando con datos reales, complejos y a gran escala. Puedes practicar desde consultas simples hasta funciones de ventana complejas y uniones masivas.
- Proyectos para tu portfolio: Puedes usar estos datos como base para crear proyectos impresionantes para tu portfolio en GitHub, como análisis exploratorios, dashboards o incluso modelos de machine learning.
- Entendimiento de esquemas de datos: Explorar cómo están estructurados estos datasets te da una visión práctica sobre el diseño de modelos de datos y esquemas en el mundo real.
- Sin coste de almacenamiento: Google cubre el coste de almacenar todos estos petabytes de datos. Tú solo pagas por las consultas que ejecutas.
Tus Primeras Consultas y el Modelo de Costes
Empezar es muy sencillo. Desde la interfaz de usuario de BigQuery en la Google Cloud Console, puedes añadir y explorar los datasets públicos con unos pocos clics. Una vez añadido un dataset, puedes inspeccionar sus tablas, ver los esquemas y empezar a escribir consultas SQL en el editor.
Es fundamental entender el modelo de precios: aunque el almacenamiento es gratuito, pagas por los datos procesados en tus consultas. Sin embargo, BigQuery ofrece un nivel de uso gratuito muy generoso: el primer terabyte (1 TB) de datos de consulta procesados cada mes es gratis. Esto es más que suficiente para aprender, experimentar y desarrollar la mayoría de los proyectos del curso sin incurrir en costes.