[{"data":1,"prerenderedAt":29},["ShallowReactive",2],{"article-data-curso-gcp-google-adk-14":3},{"content":4,"date":5,"image":6,"sideArticles":7},"\u003C!DOCTYPE html>\r\n\u003Chtml lang=\"es\">\r\n\r\n\u003Chead>\r\n    \u003Cmeta charset=\"UTF-8\">\r\n    \u003Cmeta name=\"viewport\" content=\"width=device-width, initial-scale=1.0\">\r\n    \u003Cmeta name=\"description\"\r\n        content=\"Laboratorio 14: Aprende a realizar evaluaciones sistemáticas (Evals) de tus agentes de IA. Crea datasets de prueba y mide la precisión de forma científica en ADK.\">\r\n    \u003Cmeta name=\"keywords\"\r\n        content=\"Evals, Evaluación IA, Métricas de Calidad, ADK, Accuracy, Test Sets, Benchmark, Python, Ingeniería de Prompts\">\r\n    \u003Cmeta name=\"author\" content=\"Eduardo Martínez Agrelo\">\r\n    \u003Ctitle>Evaluación Sistemática (Evals) | Curso Agentes IA\u003C/title>\r\n    \u003Cstyle>\r\n        body {\r\n            font-family: sans-serif;\r\n            line-height: 1.6;\r\n        }\r\n\r\n        h1,\r\n        h2,\r\n        h3 {\r\n            color: #333;\r\n        }\r\n\r\n        ul {\r\n            list-style-type: disc;\r\n            margin-left: 20px;\r\n        }\r\n\r\n        code {\r\n            background-color: #f4f4f4;\r\n            padding: 2px 5px;\r\n            border-radius: 3px;\r\n            font-family: monospace;\r\n        }\r\n    \u003C/style>\r\n\u003C/head>\r\n\r\n\u003Cbody>\r\n    \u003Ch1>Evaluación Sistemática (Evals: Midiendo la Precisión)\u003C/h1>\r\n\r\n    \u003Cp>\u003Cstrong>Autor:\u003C/strong> \u003Ca href=\"https://www.youtube.com/@EduardoMartinezAgrelo\" target=\"_blank\">Eduardo Martínez\r\n            Agrelo\u003C/a>\u003C/p>\r\n\r\n    \u003Cp>En el desarrollo de software tradicional, los tests unitarios aseguran que el código es correcto. En el mundo de\r\n        la IA, donde las respuestas son probabilísticas, no basta con probar el chat un par de veces. En este\r\n        laboratorio aprenderemos a implementar \u003Cstrong>Evals\u003C/strong> (Evaluaciones Sistemáticas), la metodología que\r\n        nos permite pasar del \"me parece que funciona\" al \"este agente tiene un 95% de precisión\".\u003C/p>\r\n\r\n    \u003Ch2>¿Por qué evaluar sistemáticamente?\u003C/h2>\r\n\r\n    \u003Cp>Los modelos de lenguaje son inherentemente no deterministas. Un pequeño cambio en el sistema puede mejorar una\r\n        respuesta pero romper otras tres. La evaluación sistemática resuelve este problema:\u003C/p>\r\n    \u003Cul>\r\n        \u003Cli>\u003Cstrong>Dataset de Oro (Gold Dataset):\u003C/strong> Creamos un conjunto de preguntas y respuestas esperadas que\r\n            representan el comportamiento ideal del agente.\u003C/li>\r\n        \u003Cli>\u003Cstrong>Detección de Regresiones:\u003C/strong> Al ejecutar los tests automáticamente, detectamos si una\r\n            actualización en las instrucciones o en el modelo ha empeorado el rendimiento global.\u003C/li>\r\n    \u003C/ul>\r\n\r\n    \u003Ch2>Automatización con ADK Eval\u003C/h2>\r\n\r\n    \u003Cp>ADK proporciona herramientas integradas para automatizar este proceso sin necesidad de programar complejos\r\n        frameworks de testing:\u003C/p>\r\n    \u003Cp>\u003Ccode>adk eval mi_agente --config tests.yaml\u003C/code>\u003C/p>\r\n    \u003Cul>\r\n        \u003Cli>\u003Cstrong>Comparación Automática:\u003C/strong> El sistema envía las entradas del dataset al agente y compara su\r\n            salida con la respuesta esperada de forma instantánea.\u003C/li>\r\n        \u003Cli>\u003Cstrong>Métrica de Exactitud (Accuracy):\u003C/strong> Obtenemos un informe porcentual de aciertos y fallos,\r\n            dándonos una brújula objetiva para decidir si el agente está listo para producción.\u003C/li>\r\n    \u003C/ul>\r\n\r\n    \u003Ch2>Iteración basada en datos\u003C/h2>\r\n\r\n    \u003Cp>La evaluación no es un paso final, sino un ciclo continuo de mejora:\u003C/p>\r\n    \u003Cul>\r\n        \u003Cli>\u003Cstrong>Identificación de Casos Borde:\u003C/strong> Los Evals nos muestran exactamente en qué tipo de preguntas\r\n            falla el agente (ej. formatos de fecha, cálculos específicos), permitiéndonos ajustar el prompt con\r\n            precisión quirúrgica.\u003C/li>\r\n        \u003Cli>\u003Cstrong>Benchmark de Modelos:\u003C/strong> Podemos usar el mismo dataset para comparar si un cambio de Gemini\r\n            Flash a Gemini Pro realmente justifica el aumento de coste basándonos en resultados medibles.\u003C/li>\r\n    \u003C/ul>\r\n\r\n    \u003Ch2>Implementación práctica\u003C/h2>\r\n\r\n    \u003Cp>En este laboratorio, configuraremos una batería de pruebas para un agente de extracción de datos técnicos.\r\n        Crearemos un archivo de configuración \u003Ccode>YAML\u003C/code> con diversos casos de prueba, incluyendo \"casos trampa\"\r\n        diseñados para forzar el error del modelo. Ejecutaremos el comando de evaluación y analizaremos el reporte de\r\n        resultados. Observarás cómo un fallo en los tests nos obliga a refinar nuestras instrucciones hasta lograr una\r\n        consistencia del 100%, elevando tu nivel de rigor técnico al estándar de la industria.\u003C/p>\r\n\r\n    \u003Ch2>Conclusión: La brújula del Ingeniero de IA\u003C/h2>\r\n    \u003Cp>Has aprendido que en producción, el rigor científico vence a la intuición. Ya sabes cómo medir la calidad de tus\r\n        agentes de forma objetiva. Con la precisión garantizada, el paso final es asegurar la integridad del sistema\r\n        mediante flujos de Seguridad y Supervisión Humana.\u003C/p>\r\n\u003C/body>\r\n\r\n\u003C/html>","May 12, 2026","https://storage.googleapis.com/mp-blog/images/curso-gcp-google-adk-14.jpg",[8,14,19,24],{"id":9,"title":10,"description":11,"image":12,"date":13},"curso-gcp-ai-ops-01","Fundamentos de AIOps en Google Cloud | Curso AIOps con Vertex AI","Módulo 1: Fundamentos de AIOps en Google Cloud. Aprende la transición de ITOps a operaciones inteligentes y cómo preparar tu infraestructura base con Terraform.","https://storage.googleapis.com/mp-blog/images/curso-gcp-ai-ops-01.jpg","May 28, 2026",{"id":15,"title":16,"description":17,"image":18,"date":13},"curso-gcp-ai-ops-02","Vertex AI para AIOps: AutoML y Despliegue | Curso AIOps","Módulo 2: Gestión de modelos con Vertex AI para AIOps. Aprende a utilizar AutoML, gestionar datasets tabulares y desplegar endpoints de predicción.","https://storage.googleapis.com/mp-blog/images/curso-gcp-ai-ops-02.jpg",{"id":20,"title":21,"description":22,"image":23,"date":13},"curso-gcp-ai-ops-03","Observabilidad Inteligente en GCP | Curso AIOps","Módulo 3: Observabilidad Inteligente en GCP. Configuración de Cloud Monitoring, Cloud Logging y creación de dashboards predictivos correlacionados con BigQuery.","https://storage.googleapis.com/mp-blog/images/curso-gcp-ai-ops-03.jpg",{"id":25,"title":26,"description":27,"image":28,"date":13},"curso-gcp-ai-ops-04","Automatización Operativa y Remediación | Curso AIOps","Módulo 4: Automatización Operativa en AIOps. Aprende a crear arquitecturas dirigidas por eventos con Cloud Functions y Pub/Sub para la remediación automática.","https://storage.googleapis.com/mp-blog/images/curso-gcp-ai-ops-04.jpg",1779944590121]