La Guía que
sí te salva en el examen
6 temas. Analogías de películas. Diagramas visuales. Quizzes de autoevaluación. Sin muros de texto. Abre esto la noche anterior y entra al examen con confianza.
Requerimientos Computacionales
Analogía — La Cocina de un Restaurante
Imagina que tu computadora es una cocina. Si todos los chefs (proyectos) usan los mismos ingredientes del mismo refrigerador, un día alguien pone caducado el jugo de naranja y arruina TODOS los platillos. Los entornos virtuales son como asignarle a cada chef su propio mini-refrigerador privado con exactamente los ingredientes que necesita. Git es el libro de bitácora donde el chef anota cada cambio en la receta: "hoy agregué más sal", "revertí al sabor del martes pasado".
¿Qué es un Entorno Virtual?
Cuando instalas Python, es como tener una sola versión de cada libro en tu librero. El problema: el Proyecto A necesita la versión 1.0 de pandas y el Proyecto B necesita la versión 2.0. Si los mezclas, explotan. Un entorno virtual crea un "universo paralelo" aislado para cada proyecto con sus propias versiones de librerías. Nada se contamina entre sí.
Git — El Control de Versiones
Git es como el modo "deshacer" (Ctrl+Z) de Word, pero para proyectos enteros y con memoria infinita. Puedes ver TODOS los cambios que hiciste, volver al estado de hace 3 semanas, o trabajar en una versión experimental sin tocar la versión que ya funciona. Los comandos que sí te preguntan en examen:
GitHub Codespaces vs Desarrollo Local
| Característica | GitHub Codespaces ☁️ | Desarrollo Local 🖥️ |
|---|---|---|
| ¿Dónde corre? | En la nube (en los servidores de GitHub) | En tu propia computadora |
| Instalación | Cero — ya viene todo listo | Tienes que instalar Python, librerías, Git... |
| Portabilidad | Funciona desde cualquier navegador, cualquier PC | Solo en tu máquina (a menos que configures igual) |
| Velocidad | Depende de tu internet | Rápido (usa tu CPU/RAM directamente) |
| Ideal para... | Colaborar en clase, empezar rápido | Proyectos grandes, trabajo serio |
Netflix: Por qué los entornos virtuales salvan millones
El equipo de recomendaciones de Netflix tiene 200+ ingenieros
trabajando en el mismo sistema. Sin entornos virtuales y Git, si
alguien actualiza una librería, todos los modelos de recomendación
podrían fallar simultáneamente para 200 millones de usuarios. Con
Git, si algo se rompe en producción, en literalmente 30 segundos
hacen git revert y restauran la versión que funcionaba.
El control de versiones no es opcional — es infraestructura crítica.
📋 Cheat Sheet — Requerimientos
▼python -m venv, activa con
activate.
pip freeze > requirements.txt y se instala con
pip install -r requirements.txt.
🧠 Autoevaluación — Requerimientos
¿Por qué usamos entornos virtuales en lugar de instalar todo globalmente?
¿Cuál es la diferencia entre git add y
git commit?
El Ecosistema de Datos
Analogía — El Minero de Oro vs. La Excavadora
La Minería de Datos es el proceso completo: el geólogo estudia el terreno, decide dónde perforar, interpreta los resultados y los convierte en valor. El Machine Learning es la excavadora de alta tecnología — una herramienta poderosa, pero sin el geólogo, solo hace agujeros sin sentido. La Inteligencia Artificial es el campo más amplio: incluye la excavadora, los drones de exploración, los sensores sísmicos y más. La excavadora (ML) es solo uno de los muchos equipos disponibles.
Las 3 capas: IA ⊃ ML ⊃ Deep Learning
Diagrama de contenencia
| Concepto | Qué es | Pregunta que responde | Analogía |
|---|---|---|---|
| Minería de Datos | El proceso completo: define el problema, limpia datos, modela, evalúa, despliega | "¿Qué patrones existen en nuestros datos?" | El geólogo que diseña la excavación |
| Machine Learning | Algoritmos que aprenden de datos sin reglas explícitas | "¿Qué cliente tiene 80% de probabilidad de irse?" | La excavadora de alta tecnología |
| Inteligencia Artificial | Campo amplio: ML + visión computacional + NLP + robótica | "¿Cómo hacemos que la máquina piense como humano?" | Todo el arsenal tecnológico de la mina |
El Valor Económico: de Bits a Dólares
"Los datos son el nuevo petróleo" — pero a diferencia del petróleo, los datos no se agotan. El mismo dataset puede generar valor en detección de fraude, segmentación de clientes, optimización de precios y predicción de churn, todo al mismo tiempo.
Retención de Clientes (Churn)
Modelo predice clientes con 80%+ probabilidad de cancelar. Campaña de retención dirigida solo a ellos. Costo: $100/cliente. Retención del 40%.
ROI: 920%Detección de Fraude
Reducir pérdidas de 0.10% a 0.05% de transacciones. Para un banco con $10B en transacciones anuales = ahorro de $5M cada año.
Ahorro: $5M/añoÉtica y Privacidad — Lo que no puedes ignorar
Spider-Man lo dijo antes que el GDPR
"Un gran poder conlleva una gran responsabilidad." Cuando un modelo puede predecir si alguien va a cometer un crimen, enfermarse, o tener problemas financieros — eso es un poder enorme. Usarlo mal tiene consecuencias reales para personas reales.
Marco Ético: Las 5 Preguntas
| Principio | Pregunta que debes hacerte antes de desplegar |
|---|---|
| Equidad | ¿El modelo comete más errores en ciertos grupos demográficos? |
| Transparencia | ¿Puedo explicarle al cliente por qué el modelo tomó esa decisión? |
| Rendición de cuentas | Si el modelo se equivoca y daña a alguien, ¿quién responde? |
| Privacidad | ¿Estoy usando solo los datos estrictamente necesarios? |
| Beneficencia | ¿Este modelo beneficia a la sociedad o solo maximiza utilidades? |
📋 Cheat Sheet — Ecosistema
▼🧠 Autoevaluación — Ecosistema
¿Cuál es la diferencia entre Minería de Datos y Machine Learning? Da un ejemplo de cómo se relacionan.
¿Por qué los datos históricos pueden generar modelos sesgados? Da un ejemplo concreto.
Fundamentos de Machine Learning
Analogía — El Estudiante y el Examen
El ML aprende de datos así como tú aprendes de ejemplos. El riesgo: un estudiante que memoriza las respuestas exactas del simulacro (overfitting) saca 100 en la práctica pero 50 en el examen real. Un estudiante que entiende los principios (generalización) saca 85 en ambos. El objetivo no es memorizar — es aprender la estructura subyacente.
La ecuación base: y = f(x) + ε
Supervisado vs. No Supervisado
| Característica | Aprendizaje Supervisado 👨🏫 | No Supervisado 🔍 |
|---|---|---|
| Datos | Etiquetados: tenemos (x, y) | Sin etiqueta: solo tenemos x |
| Objetivo | Predecir y para nuevos x | Descubrir estructura oculta en x |
| Pregunta | "¿Este cliente va a irse?" (Sí/No) | "¿Qué tipos de clientes existen?" |
| Evaluación | Fácil: comparas predicho vs. real | Difícil: no hay "respuesta correcta" |
| Ejemplos | Clasificación, Regresión | Clustering, Detección de anomalías |
| Algoritmos | Reg. Logística, Árboles, XGBoost | K-Means, Clustering jerárquico |
El Dilema Sesgo-Varianza — Lo más importante del curso
Analogía — El Arquero
Alto Sesgo (underfitting): tus flechas caen siempre en el mismo lugar... pero muy lejos del centro. El arco está mal calibrado. Alta Varianza (overfitting): tus flechas están dispersas por todas partes — a veces pegas en el centro, a veces en el árbol de al lado. No hay consistencia. Modelo óptimo: flechas concentradas cerca del centro. Bajo error sistemático, baja dispersión.
Underfitting (Sesgo alto)
El modelo es demasiado simple. Un árbol de solo 1 nivel. Una línea recta para un patrón curvo. No captura la complejidad real de los datos.
Punto óptimo ✓
El modelo generaliza bien a datos nuevos. Good performance en entrenamiento y en prueba. El santo grial.
Overfitting (Varianza alta)
El modelo memorizó el ruido. 99% en entrenamiento, 60% en prueba. Un árbol con 50 niveles de profundidad.
Regresión Lineal — Para predecir números
Regresión Logística — Para predecir probabilidades
K-Means — Para agrupar sin etiquetas
Segmentación de clientes en Walmart
Walmart aplica K-Means sobre variables de compra (frecuencia, ticket promedio, horario, categorías). Resultado: 4 segmentos: "Cazadores de ofertas", "Compradores de conveniencia", "Familias con presupuesto", "Compradores premium". Cada segmento recibe promociones diferentes. Sin el modelo, enviarían el mismo cupón de descuento a todos — malgastando dinero en quienes de todas formas compran sin descuento.
💰 Marketing personalizado = +15-25% en conversión📋 Cheat Sheet — Fundamentos ML
▼🧠 Autoevaluación — ML Fundamentos
Explica el trade-off Sesgo-Varianza con la analogía del arquero. ¿Qué significa underfitting y overfitting en términos prácticos?
¿Por qué es crítico normalizar los datos antes de aplicar K-Means? ¿Qué pasaría si no lo haces?
Metodología CRISP-DM
Analogía — Producir una Película de Hollywood
Nadie empieza a filmar sin un guión. CRISP-DM es como producir una película: primero entiendes qué historia quieres contar (Negocio), revisas si tienes las locaciones y actores disponibles (Datos), preparas el set y ensayas (Preparación), filmas (Modelado), revisas los rushes con el director (Evaluación) y la estrenas al público (Despliegue). Y si la audiencia de prueba odia el final, vuelves a filmar — el proceso es iterativo.
Las 6 Fases de CRISP-DM — Flujo y tiempo
🎯 Entendimiento del Negocio
¿Qué problema queremos resolver? ¿Cuál es el objetivo medible? Traducir: "reducir fraude" → "clasificador con Recall > 90%"
La fase más crítica — define todo lo demás🔍 Entendimiento de los Datos (EDA)
Explorar, visualizar, detectar valores faltantes, outliers, correlaciones. Principio: "Garbage In, Garbage Out"
~10-15% del proyecto🧹 Preparación de los Datos
Limpieza, ingeniería de características (RFM), codificación de variables categóricas. Eliminar duplicados, tratar nulos.
⏱️ 60-80% del tiempo total del proyecto🤖 Modelado
Seleccionar y entrenar algoritmos. Ajustar hiperparámetros. Validación cruzada para evitar overfitting.
~10-15% del proyecto📊 Evaluación
¿El modelo alcanza los objetivos de negocio? No solo métricas técnicas (AUC) — también financieras (¿cuánto dinero genera?).
Punto de decisión: ¿desplegar o iterar?🚀 Despliegue
Implementar en producción. Monitorear degradación del modelo. Planificar reentrenamiento periódico.
No es el final — es el inicio del siguiente cicloLa Traducción Negocio → Minería
La habilidad más importante del Fase 1 es convertir el lenguaje del negocio en objetivos técnicos medibles:
| Objetivo de Negocio | Objetivo de Minería de Datos | Tipo de problema |
|---|---|---|
| "Reducir el fraude en tarjetas" | Clasificador binario con Recall ≥ 90% y FPR ≤ 2% | Clasificación |
| "Entender mejor a mis clientes" | K-Means con Silhouette ≥ 0.5 y 3-5 segmentos interpretables | Clustering |
| "Predecir ventas del próximo mes" | Modelo de regresión con MAPE ≤ 10% en test | Regresión |
| "Retener más clientes" | Modelo de churn con AUC ≥ 0.85 y Lift ≥ 3 en decil 1 | Clasificación |
📋 Cheat Sheet — CRISP-DM
▼🧠 Autoevaluación — CRISP-DM
¿Por qué la Fase de Preparación de Datos consume el 60-80% del tiempo del proyecto? ¿Qué se hace en ella?
Traduce este objetivo de negocio a un objetivo técnico de minería: "Quiero que menos clientes abandonen mi plataforma de streaming."
Evaluación de Modelos como Herramienta Financiera
Analogía — El Doctor y el Diagnóstico
Un doctor que dice "estás sano" a TODOS los pacientes tendría 99% de "exactitud" (accuracy) si solo el 1% tiene cáncer. Pero ese doctor es inútil porque el 1% de casos graves son exactamente los que necesita detectar. La accuracy sola no mide si un modelo hace lo que necesitamos. Necesitamos métricas que reflejen el costo real de equivocarse.
La Matriz de Confusión
Las 4 celdas — cada una tiene un costo diferente
Correcto ✓
Legítimo detectado
Falsa Alarma
Molesta al cliente
Miss ❌
Fraude no detectado
Correcto ✓
Fraude detectado
La Paradoja de la Exactitud — El engaño estadístico
¿Cuándo priorizar Precision vs Recall?
| Situación | ¿Qué error es más caro? | Prioriza | ¿Por qué? |
|---|---|---|---|
| Detección de fraude bancario | FN (no detectar el fraude = pierdes $5,000) | Recall | Mejor bloquear algunas tarjetas legítimas que perder dinero |
| Filtro de spam | FP (bloquear email importante) | Precision | Mejor dejar pasar spam que bloquear un email del jefe |
| Diagnóstico de cáncer | FN (no detectar cáncer real) | Recall | Mejor hacer biopsia innecesaria que perder un caso |
| Recomendación de productos | FP (recomendar algo irrelevante) | Precision | Mejor no recomendar nada que recomendar basura |
Curva ROC vs Curva Precision-Recall
Análisis de Deciles y Curva de Lift
Ordena a los clientes de mayor a menor probabilidad predicha. Divide en 10 grupos iguales (deciles). El Lift te dice cuánto mejor es el modelo que disparar al azar:
Ejemplo — Lift por Decil (campaña de marketing)
Lift = 4.8 en Decil 1 → al contactar el 10% más probable, capturas 4.8 veces más positivos que al azar
Matriz de Confusión como Estado de Resultados
📋 Cheat Sheet — Evaluación de Modelos
▼🧠 Autoevaluación — Evaluación de Modelos
Demuestra numéricamente la Paradoja de la Exactitud. Tengo 1,000 clientes, 950 sanos y 50 enfermos. Mi modelo dice "sano" a todos. ¿Cuál es su accuracy, precision y recall?
¿Cuándo preferirías usar PR-AUC sobre ROC-AUC? Explica con un ejemplo.
Árboles de Decisión
Analogía — "¿Quién es quién?" (el juego de mesa)
Los árboles de decisión funcionan exactamente como el juego de "¿Quién es quién?": haces preguntas binarias ("¿Tiene lentes? ¿Sí o No?") para ir eliminando posibilidades hasta llegar a la respuesta. El algoritmo hace lo mismo con tus datos: busca la pregunta que mejor divide los datos en grupos más homogéneos, y así sucesivamente hasta que todos los grupos sean puros.
Estructura de un Árbol
Anatomía de un árbol de decisión
Criterios de Impureza: Gini y Entropía
Para encontrar el mejor split, necesitamos medir qué tan "mezcladas" están las clases en un nodo. Un nodo puro (todos de la misma clase) tiene impureza = 0. Un nodo totalmente mezclado (50% cada clase) tiene impureza máxima.
Valores de Gini. La impureza es simétrica: un nodo con 90% clase 0 es igual de "puro" que uno con 90% clase 1.
Algoritmo CART — Construcción paso a paso
Sobreajuste y Control de Complejidad
Analogía — Podar un bonsái
Un árbol de decisión sin control crece infinitamente hasta
memorizar cada dato de entrenamiento (cada hoja contiene un solo
punto). Es como un bonsái que crece sin poda — incontrolable. La
poda (pruning) corta ramas que no aportan valor
predictivo. El parámetro max_depth es como establecer
la altura máxima antes de plantar. El objetivo: árbol lo
suficientemente complejo para capturar el patrón, lo
suficientemente simple para no memorizar el ruido.
| Parámetro | Qué controla | Efecto de aumentarlo |
|---|---|---|
| max_depth | Profundidad máxima del árbol | Más preguntas → más complejo → más overfitting |
| min_samples_split | Mínimo de muestras para dividir | Más muestras requeridas → árbol más simple |
| min_samples_leaf | Mínimo de muestras en cada hoja | Más muestras por hoja → árbol más conservador |
| ccp_alpha | Parámetro de poda por costo-complejidad | Mayor penalización → más ramas podadas → más simple |
Importancia de Variables vs. Permutation Importance
Optimización con Optuna — Búsqueda inteligente de hiperparámetros
Analogía — El explorador vs. el cartógrafo
Grid Search es como explorar un territorio probando TODOS los puntos del mapa en orden, uno por uno — exhaustivo pero lentísimo. Optuna es como un explorador inteligente que, después de explorar varias zonas, aprende qué regiones del mapa tienen más probabilidad de contener tesoros y explora más a fondo esas zonas, ignorando las que ya mostró resultados pobres.
¿Por qué un banco prefiere árboles sobre redes neuronales para crédito?
El GDPR y regulaciones bancarias exigen que un cliente rechazado para un crédito tenga derecho a una explicación. Un árbol de decisión produce reglas legibles: "Tu crédito fue rechazado porque: 1) tienes menos de 12 meses de historial crediticio, Y 2) tu ratio deuda/ingreso supera 0.4." Una red neuronal no puede explicarlo. En contextos regulados, la interpretabilidad no es opcional — es un requisito legal.
⚖️ Cumplimiento regulatorio = sin multas millonarias📋 Cheat Sheet — Árboles de Decisión
▼🧠 Autoevaluación — Árboles de Decisión
Calcula el Índice de Gini para un nodo con 6 positivos y 4 negativos (10 total). ¿Es un nodo "puro" o muy mezclado?
¿Por qué un árbol de decisión es preferible a una red neuronal en contextos bancarios regulados? ¿Qué parámetro controla principalmente el overfitting?