EXAMEN PARCIAL · MINERÍA DE DATOS · ITAM 2026

La Guía que
sí te salva en el examen

6 temas. Analogías de películas. Diagramas visuales. Quizzes de autoevaluación. Sin muros de texto. Abre esto la noche anterior y entra al examen con confianza.

TEMA 01 / 06
💻

Requerimientos Computacionales

Entornos virtuales · Git · GitHub Codespaces · Desarrollo local
🎬

Analogía — La Cocina de un Restaurante

Imagina que tu computadora es una cocina. Si todos los chefs (proyectos) usan los mismos ingredientes del mismo refrigerador, un día alguien pone caducado el jugo de naranja y arruina TODOS los platillos. Los entornos virtuales son como asignarle a cada chef su propio mini-refrigerador privado con exactamente los ingredientes que necesita. Git es el libro de bitácora donde el chef anota cada cambio en la receta: "hoy agregué más sal", "revertí al sabor del martes pasado".

¿Qué es un Entorno Virtual?

Cuando instalas Python, es como tener una sola versión de cada libro en tu librero. El problema: el Proyecto A necesita la versión 1.0 de pandas y el Proyecto B necesita la versión 2.0. Si los mezclas, explotan. Un entorno virtual crea un "universo paralelo" aislado para cada proyecto con sus propias versiones de librerías. Nada se contamina entre sí.

# Crear y activar un entorno virtual python -m venv mi_entorno # Crea la caja aislada source mi_entorno/bin/activate # Entra al universo paralelo (Mac/Linux) mi_entorno\Scripts\activate # Mismo en Windows pip install pandas==2.0 # Instala SOLO en este universo pip freeze > requirements.txt # Lista todos los ingredientes (para compartir) deactivate # Sal del universo paralelo

Git — El Control de Versiones

Git es como el modo "deshacer" (Ctrl+Z) de Word, pero para proyectos enteros y con memoria infinita. Puedes ver TODOS los cambios que hiciste, volver al estado de hace 3 semanas, o trabajar en una versión experimental sin tocar la versión que ya funciona. Los comandos que sí te preguntan en examen:

git init # Comienza a "grabar" la historia del proyecto git add archivo.py # "Prepara" el archivo para guardar git commit -m "msg" # Toma una foto del estado actual con nota git status # ¿Qué cambió desde el último commit? git log # Muestra el historial de todos los commits git branch nueva # Crea una línea de tiempo alternativa git merge nueva # Fusiona la rama alternativa con la principal git clone URL # Descarga un repo existente git pull # Descarga los cambios del servidor git push # Sube tus cambios al servidor

GitHub Codespaces vs Desarrollo Local

Característica GitHub Codespaces ☁️ Desarrollo Local 🖥️
¿Dónde corre? En la nube (en los servidores de GitHub) En tu propia computadora
Instalación Cero — ya viene todo listo Tienes que instalar Python, librerías, Git...
Portabilidad Funciona desde cualquier navegador, cualquier PC Solo en tu máquina (a menos que configures igual)
Velocidad Depende de tu internet Rápido (usa tu CPU/RAM directamente)
Ideal para... Colaborar en clase, empezar rápido Proyectos grandes, trabajo serio
🏢 Ejemplo de Negocio

Netflix: Por qué los entornos virtuales salvan millones

El equipo de recomendaciones de Netflix tiene 200+ ingenieros trabajando en el mismo sistema. Sin entornos virtuales y Git, si alguien actualiza una librería, todos los modelos de recomendación podrían fallar simultáneamente para 200 millones de usuarios. Con Git, si algo se rompe en producción, en literalmente 30 segundos hacen git revert y restauran la versión que funcionaba. El control de versiones no es opcional — es infraestructura crítica.

💰 Git + entornos = sin downtime inesperado

📋 Cheat Sheet — Requerimientos

Entorno virtual: universo aislado de librerías por proyecto. Crea con python -m venv, activa con activate.
requirements.txt: lista de dependencias exactas. Se genera con pip freeze > requirements.txt y se instala con pip install -r requirements.txt.
Git flujo básico: init → add → commit → push. El commit es la "foto" del estado actual.
Branch = línea de tiempo alternativa para experimentar sin dañar el código que funciona.
Codespaces: entorno listo en la nube, sin instalación. Ideal para colaborar o trabajar desde cualquier dispositivo.

🧠 Autoevaluación — Requerimientos

¿Por qué usamos entornos virtuales en lugar de instalar todo globalmente?

Porque diferentes proyectos pueden necesitar versiones distintas de las mismas librerías. Sin entornos virtuales, actualizar una librería para el Proyecto A podría romper el Proyecto B. El entorno virtual aísla las dependencias de cada proyecto en su propio "universo" independiente.

¿Cuál es la diferencia entre git add y git commit?

git add "prepara" o "selecciona" qué archivos quieres incluir en la próxima foto. git commit toma la foto definitiva con un mensaje descriptivo. Es un proceso de dos pasos: primero decides qué guardar, luego lo guardas.
TEMA 02 / 06
🌍

El Ecosistema de Datos

DM vs. ML vs. IA · Valor económico · Ética y privacidad
⛏️

Analogía — El Minero de Oro vs. La Excavadora

La Minería de Datos es el proceso completo: el geólogo estudia el terreno, decide dónde perforar, interpreta los resultados y los convierte en valor. El Machine Learning es la excavadora de alta tecnología — una herramienta poderosa, pero sin el geólogo, solo hace agujeros sin sentido. La Inteligencia Artificial es el campo más amplio: incluye la excavadora, los drones de exploración, los sensores sísmicos y más. La excavadora (ML) es solo uno de los muchos equipos disponibles.

Las 3 capas: IA ⊃ ML ⊃ Deep Learning

Diagrama de contenencia

🌐 INTELIGENCIA ARTIFICIAL
🤖 MACHINE LEARNING
🧠 DEEP LEARNING
La Minería de Datos usa ML como herramienta — no es un subconjunto
Concepto Qué es Pregunta que responde Analogía
Minería de Datos El proceso completo: define el problema, limpia datos, modela, evalúa, despliega "¿Qué patrones existen en nuestros datos?" El geólogo que diseña la excavación
Machine Learning Algoritmos que aprenden de datos sin reglas explícitas "¿Qué cliente tiene 80% de probabilidad de irse?" La excavadora de alta tecnología
Inteligencia Artificial Campo amplio: ML + visión computacional + NLP + robótica "¿Cómo hacemos que la máquina piense como humano?" Todo el arsenal tecnológico de la mina

El Valor Económico: de Bits a Dólares

"Los datos son el nuevo petróleo" — pero a diferencia del petróleo, los datos no se agotan. El mismo dataset puede generar valor en detección de fraude, segmentación de clientes, optimización de precios y predicción de churn, todo al mismo tiempo.

📱 Telecomunicaciones

Retención de Clientes (Churn)

Modelo predice clientes con 80%+ probabilidad de cancelar. Campaña de retención dirigida solo a ellos. Costo: $100/cliente. Retención del 40%.

ROI: 920%
💳 Banca

Detección de Fraude

Reducir pérdidas de 0.10% a 0.05% de transacciones. Para un banco con $10B en transacciones anuales = ahorro de $5M cada año.

Ahorro: $5M/año

Ética y Privacidad — Lo que no puedes ignorar

🕷️

Spider-Man lo dijo antes que el GDPR

"Un gran poder conlleva una gran responsabilidad." Cuando un modelo puede predecir si alguien va a cometer un crimen, enfermarse, o tener problemas financieros — eso es un poder enorme. Usarlo mal tiene consecuencias reales para personas reales.

⚠️ Caso COMPAS (EE.UU.): Un algoritmo usado para predecir reincidencia criminal tenía tasas de falsos positivos significativamente más altas para personas afroamericanas. Personas reales fueron encarceladas más tiempo por culpa de un modelo sesgado. Esto pasó porque los datos históricos de arrestos ya contenían sesgo racial.

Marco Ético: Las 5 Preguntas

✅ Equidad 👁️ Transparencia ⚖️ Rendición de Cuentas 🔒 Privacidad ❤️ Beneficencia
Principio Pregunta que debes hacerte antes de desplegar
Equidad ¿El modelo comete más errores en ciertos grupos demográficos?
Transparencia ¿Puedo explicarle al cliente por qué el modelo tomó esa decisión?
Rendición de cuentas Si el modelo se equivoca y daña a alguien, ¿quién responde?
Privacidad ¿Estoy usando solo los datos estrictamente necesarios?
Beneficencia ¿Este modelo beneficia a la sociedad o solo maximiza utilidades?

📋 Cheat Sheet — Ecosistema

Minería de Datos ≠ ML ≠ IA. MD es el proceso, ML son las herramientas, IA es el campo.
Datos no = Valor. Los datos solo valen cuando se convierten en decisiones accionables que impactan el negocio.
Variables proxy: una variable aparentemente inocua (como el código postal) puede correlacionar con raza o nivel socioeconómico, generando discriminación indirecta.
Anonimización = irreversible. Pseudonimización = reversible con clave. El GDPR distingue entre ambas.
Ingeniero en Negocios = traductor entre el mundo técnico y el mundo de negocio. No optimiza algoritmos; genera valor medible.

🧠 Autoevaluación — Ecosistema

¿Cuál es la diferencia entre Minería de Datos y Machine Learning? Da un ejemplo de cómo se relacionan.

La Minería de Datos es el proceso completo (KDD): entender el negocio, explorar los datos, limpiarlos, modelar, evaluar y desplegar. El Machine Learning son los algoritmos que se usan como herramienta dentro de ese proceso (en la fase de modelado). Ejemplo: un proyecto para reducir churn en una telco es Minería de Datos; el modelo de regresión logística que entrenas para predecir quién se va es Machine Learning.

¿Por qué los datos históricos pueden generar modelos sesgados? Da un ejemplo concreto.

Porque el modelo aprende patrones de los datos históricos, y si esos datos reflejan decisiones humanas pasadas que eran discriminatorias, el modelo perpetúa y amplifica ese sesgo. Ejemplo: Amazon entrenó un modelo de reclutamiento con CVs de empleados pasados (mayoritariamente hombres) y el modelo aprendió a penalizar CVs que mencionaban la palabra "mujer".
TEMA 03 / 06
🔬

Fundamentos de Machine Learning

Supervisado vs No Supervisado · Sesgo-Varianza · Regresión · K-Means
🎓

Analogía — El Estudiante y el Examen

El ML aprende de datos así como tú aprendes de ejemplos. El riesgo: un estudiante que memoriza las respuestas exactas del simulacro (overfitting) saca 100 en la práctica pero 50 en el examen real. Un estudiante que entiende los principios (generalización) saca 85 en ambos. El objetivo no es memorizar — es aprender la estructura subyacente.

La ecuación base: y = f(x) + ε

y = f(x) + ε y = lo que queremos predecir (ventas, fraude, churn) f(x) = la función REAL y desconocida de la realidad ε = error irreducible (ruido aleatorio, lo que no podemos medir) El ML construye f̂(x) — una aproximación de f(x) usando datos históricos Meta: que f̂(x) sea tan buena que funcione en datos NUEVOS

Supervisado vs. No Supervisado

Característica Aprendizaje Supervisado 👨‍🏫 No Supervisado 🔍
Datos Etiquetados: tenemos (x, y) Sin etiqueta: solo tenemos x
Objetivo Predecir y para nuevos x Descubrir estructura oculta en x
Pregunta "¿Este cliente va a irse?" (Sí/No) "¿Qué tipos de clientes existen?"
Evaluación Fácil: comparas predicho vs. real Difícil: no hay "respuesta correcta"
Ejemplos Clasificación, Regresión Clustering, Detección de anomalías
Algoritmos Reg. Logística, Árboles, XGBoost K-Means, Clustering jerárquico

El Dilema Sesgo-Varianza — Lo más importante del curso

🎯

Analogía — El Arquero

Alto Sesgo (underfitting): tus flechas caen siempre en el mismo lugar... pero muy lejos del centro. El arco está mal calibrado. Alta Varianza (overfitting): tus flechas están dispersas por todas partes — a veces pegas en el centro, a veces en el árbol de al lado. No hay consistencia. Modelo óptimo: flechas concentradas cerca del centro. Bajo error sistemático, baja dispersión.

Error Total = Sesgo² + Varianza + Error Irreducible (ε) Sesgo alto (Underfitting): → Modelo demasiado SIMPLE → Mal en entrenamiento Y en prueba → Solución: usar modelo más complejo Varianza alta (Overfitting): → Modelo demasiado COMPLEJO — memoriza el ruido → Excelente en entrenamiento, pésimo en prueba → Solución: regularización, validación cruzada, poda ⚖️ Objetivo: encontrar el punto donde Sesgo² + Varianza es mínimo
Underfitting (Sesgo alto)

El modelo es demasiado simple. Un árbol de solo 1 nivel. Una línea recta para un patrón curvo. No captura la complejidad real de los datos.

Punto óptimo ✓

El modelo generaliza bien a datos nuevos. Good performance en entrenamiento y en prueba. El santo grial.

Overfitting (Varianza alta)

El modelo memorizó el ruido. 99% en entrenamiento, 60% en prueba. Un árbol con 50 niveles de profundidad.

Regresión Lineal — Para predecir números

y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ + ε β₀ = intersección (valor de y cuando todo es cero) βᵢ = coeficiente: "por cada +1 en xᵢ, y cambia βᵢ unidades" Ejemplo: β_marketing = 0.75 → "Por cada $1,000 extra en marketing → $750 más en ventas" OLS (Mínimos Cuadrados): minimiza Σ(y_real - y_predicho)² Métricas: R² = 0.85 → el modelo explica el 85% de la variabilidad RMSE = error promedio en unidades de y (penaliza errores grandes) MAE = error absoluto promedio (más robusto a outliers) Regularización: Ridge (L2): penaliza β² → reduce coeficientes pero no los elimina Lasso (L1): penaliza |β| → puede forzar coeficientes a exactamente 0 → Lasso = selección automática de variables

Regresión Logística — Para predecir probabilidades

# Clasifica en categorías (Sí/No, Fraude/Legítimo, Churn/No Churn) P(y=1) = 1 / (1 + e^-(β₀ + β₁x)) ← Función Sigmoide Salida: un número entre 0 y 1 (una PROBABILIDAD) No dice "este cliente se va" — dice "tiene 78% de probabilidad de irse" Umbral de decisión: Si P(y=1) > 0.5 → predice "SÍ" (default) Puedes ajustarlo: umbral 0.2 en fraude = más sensible = menos fraudes perdidos

K-Means — Para agrupar sin etiquetas

Algoritmo iterativo de 4 pasos: 1. Inicializar: coloca K centroides al azar 2. Asignar: cada punto va al centroide más cercano 3. Actualizar: mueve el centroide al promedio de su grupo 4. Repetir pasos 2-3 hasta que no haya cambios (convergencia) ⚠️ CRÍTICO: SIEMPRE normaliza los datos antes de K-Means Sin normalización, la variable con mayor escala domina todo (ingresos en miles vs. edad en decenas → K-Means ignora la edad) Selección de K: Método del Codo: grafica inercia vs. K, busca el "codo" de la curva Silhouette Score: cercano a 1 = clusters bien definidos
🛒 Ejemplo Retail — K-Means en acción

Segmentación de clientes en Walmart

Walmart aplica K-Means sobre variables de compra (frecuencia, ticket promedio, horario, categorías). Resultado: 4 segmentos: "Cazadores de ofertas", "Compradores de conveniencia", "Familias con presupuesto", "Compradores premium". Cada segmento recibe promociones diferentes. Sin el modelo, enviarían el mismo cupón de descuento a todos — malgastando dinero en quienes de todas formas compran sin descuento.

💰 Marketing personalizado = +15-25% en conversión

📋 Cheat Sheet — Fundamentos ML

Supervisado = datos con etiqueta (y). No supervisado = sin etiqueta, descubres estructura.
Sesgo alto = modelo muy simple = underfitting. Varianza alta = modelo muy complejo = overfitting.
Ridge: penaliza β² → nunca elimina variables. Lasso: penaliza |β| → puede eliminar variables (selección automática).
Regresión Logística no es regresión — es clasificación. Su salida es una probabilidad [0,1].
K-Means: siempre normalizar primero. El número K se elige con el Método del Codo.
Curva ROC: Eje X = FPR (falsos positivos), Eje Y = Recall. AUC=0.5 es aleatorio, AUC=1.0 es perfecto.

🧠 Autoevaluación — ML Fundamentos

Explica el trade-off Sesgo-Varianza con la analogía del arquero. ¿Qué significa underfitting y overfitting en términos prácticos?

Sesgo alto (underfitting): el arquero siempre falla en el mismo lugar, lejos del centro. El modelo es demasiado simple y no captura la complejidad real — falla tanto en entrenamiento como en prueba. Varianza alta (overfitting): el arquero a veces da en el centro y a veces ni cerca — sin consistencia. El modelo memorizó el ruido de los datos de entrenamiento y no generaliza a datos nuevos: 99% en entrenamiento, 60% en prueba.

¿Por qué es crítico normalizar los datos antes de aplicar K-Means? ¿Qué pasaría si no lo haces?

K-Means usa distancias euclidianas. Si una variable tiene escala grande (ingresos: $20,000-$100,000) y otra tiene escala pequeña (edad: 18-65), la diferencia de $10,000 en ingresos numéricamente "aplasta" la diferencia de 40 años en edad. Sin normalización, el algoritmo agrupará solo por ingresos, ignorando totalmente la edad. Los clusters resultantes serán inútiles para el negocio.
TEMA 04 / 06
🔄

Metodología CRISP-DM

Las 6 fases del ciclo de vida · Naturaleza iterativa
🎬

Analogía — Producir una Película de Hollywood

Nadie empieza a filmar sin un guión. CRISP-DM es como producir una película: primero entiendes qué historia quieres contar (Negocio), revisas si tienes las locaciones y actores disponibles (Datos), preparas el set y ensayas (Preparación), filmas (Modelado), revisas los rushes con el director (Evaluación) y la estrenas al público (Despliegue). Y si la audiencia de prueba odia el final, vuelves a filmar — el proceso es iterativo.

Las 6 Fases de CRISP-DM — Flujo y tiempo

1
🎯 Entendimiento del Negocio

¿Qué problema queremos resolver? ¿Cuál es el objetivo medible? Traducir: "reducir fraude" → "clasificador con Recall > 90%"

La fase más crítica — define todo lo demás
2
🔍 Entendimiento de los Datos (EDA)

Explorar, visualizar, detectar valores faltantes, outliers, correlaciones. Principio: "Garbage In, Garbage Out"

~10-15% del proyecto
3
🧹 Preparación de los Datos

Limpieza, ingeniería de características (RFM), codificación de variables categóricas. Eliminar duplicados, tratar nulos.

⏱️ 60-80% del tiempo total del proyecto
4
🤖 Modelado

Seleccionar y entrenar algoritmos. Ajustar hiperparámetros. Validación cruzada para evitar overfitting.

~10-15% del proyecto
5
📊 Evaluación

¿El modelo alcanza los objetivos de negocio? No solo métricas técnicas (AUC) — también financieras (¿cuánto dinero genera?).

Punto de decisión: ¿desplegar o iterar?
6
🚀 Despliegue

Implementar en producción. Monitorear degradación del modelo. Planificar reentrenamiento periódico.

No es el final — es el inicio del siguiente ciclo
💡 El secreto de CRISP-DM: El proceso no es lineal — es un ciclo. Cuando modelas y descubres que faltan variables importantes, vuelves a la Fase 2. Cuando evalúas y el modelo no alcanza los objetivos de negocio, vuelves a la Fase 1 para redefinir el problema. Esta iteración es lo que hace que los proyectos de datos mejoren con el tiempo.

La Traducción Negocio → Minería

La habilidad más importante del Fase 1 es convertir el lenguaje del negocio en objetivos técnicos medibles:

Objetivo de Negocio Objetivo de Minería de Datos Tipo de problema
"Reducir el fraude en tarjetas" Clasificador binario con Recall ≥ 90% y FPR ≤ 2% Clasificación
"Entender mejor a mis clientes" K-Means con Silhouette ≥ 0.5 y 3-5 segmentos interpretables Clustering
"Predecir ventas del próximo mes" Modelo de regresión con MAPE ≤ 10% en test Regresión
"Retener más clientes" Modelo de churn con AUC ≥ 0.85 y Lift ≥ 3 en decil 1 Clasificación

📋 Cheat Sheet — CRISP-DM

6 fases: Negocio → Datos → Preparación → Modelado → Evaluación → Despliegue.
Fase 3 consume 60-80% del tiempo real. Los datos siempre están sucios.
No es lineal: puedes (y debes) regresar a fases anteriores cuando descubres nueva información.
Garbage In, Garbage Out: si los datos de entrada son basura, el modelo también lo será. Por eso la Fase 2 es crítica.
RFM = Recency (cuánto tiempo sin comprar), Frequency (frecuencia), Monetary (valor monetario). Ingeniería de características en Fase 3.

🧠 Autoevaluación — CRISP-DM

¿Por qué la Fase de Preparación de Datos consume el 60-80% del tiempo del proyecto? ¿Qué se hace en ella?

En el mundo real, los datos vienen de múltiples fuentes, en formatos distintos, con errores, duplicados, valores faltantes e inconsistencias. La Fase 3 incluye: limpieza (eliminar duplicados, tratar valores nulos), ingeniería de características (crear nuevas variables como RFM), codificación de variables categóricas (convertir "Ciudad" en números que el modelo entienda), y normalización. Es un proceso manual, iterativo y que requiere conocimiento del dominio de negocio.

Traduce este objetivo de negocio a un objetivo técnico de minería: "Quiero que menos clientes abandonen mi plataforma de streaming."

Objetivo técnico: "Desarrollar un modelo de clasificación binaria (churn: Sí/No) con AUC ≥ 0.82 en datos de prueba, que identifique correctamente al menos el 75% de los clientes que cancelarán en los próximos 30 días (Recall ≥ 0.75), para lanzar campañas de retención dirigidas a los 3 deciles superiores de riesgo."
TEMA 05 / 06
📊

Evaluación de Modelos como Herramienta Financiera

Matriz de Confusión · Paradoja de Accuracy · ROC/PR · Lift · Profit Curves
🩺

Analogía — El Doctor y el Diagnóstico

Un doctor que dice "estás sano" a TODOS los pacientes tendría 99% de "exactitud" (accuracy) si solo el 1% tiene cáncer. Pero ese doctor es inútil porque el 1% de casos graves son exactamente los que necesita detectar. La accuracy sola no mide si un modelo hace lo que necesitamos. Necesitamos métricas que reflejen el costo real de equivocarse.

La Matriz de Confusión

Las 4 celdas — cada una tiene un costo diferente

Predicho: NO
Predicho: SÍ
Real: NO
TN
Correcto ✓
Legítimo detectado
FP
Falsa Alarma
Molesta al cliente
Real: SÍ
FN
Miss ❌
Fraude no detectado
TP
Correcto ✓
Fraude detectado
Accuracy = (TP + TN) / Total ← TRAMPA en clases desbalanceadas Precision = TP / (TP + FP) ← De lo que dije "sí", ¿cuánto era sí? Recall = TP / (TP + FN) ← De todos los sí reales, ¿cuántos atrapé? F1-Score = 2 × (Precision × Recall) / (Precision + Recall) FPR = FP / (FP + TN) ← Tasa de falsas alarmas

La Paradoja de la Exactitud — El engaño estadístico

⚠️ El engaño: 1000 transacciones: 990 legítimas, 10 fraudulentas. Un modelo que siempre dice "legítimo" tiene accuracy = 99%. Pero Recall = 0% — no detectó ni UN solo fraude. Tu "increíble" modelo de 99% es completamente inútil. La accuracy es una mentira estadística cuando las clases están desbalanceadas.

¿Cuándo priorizar Precision vs Recall?

Situación ¿Qué error es más caro? Prioriza ¿Por qué?
Detección de fraude bancario FN (no detectar el fraude = pierdes $5,000) Recall Mejor bloquear algunas tarjetas legítimas que perder dinero
Filtro de spam FP (bloquear email importante) Precision Mejor dejar pasar spam que bloquear un email del jefe
Diagnóstico de cáncer FN (no detectar cáncer real) Recall Mejor hacer biopsia innecesaria que perder un caso
Recomendación de productos FP (recomendar algo irrelevante) Precision Mejor no recomendar nada que recomendar basura

Curva ROC vs Curva Precision-Recall

Curva ROC: Eje X = FPR (Tasa de Falsos Positivos) Eje Y = Recall (Sensibilidad) AUC = 0.5 → modelo aleatorio (inútil) AUC = 1.0 → modelo perfecto AUC = 0.87 → "detecta 87% de fraudes revisando el 50% más sospechoso" Curva Precision-Recall: Eje X = Recall, Eje Y = Precision Mejor cuando las clases están MUY desbalanceadas (ej: 1% positivos) ¿Cuándo usar cuál? Clases BALANCEADAS → ROC-AUC Clases DESBALANCEADAS → PR-AUC (ROC puede ser engañosa)

Análisis de Deciles y Curva de Lift

Ordena a los clientes de mayor a menor probabilidad predicha. Divide en 10 grupos iguales (deciles). El Lift te dice cuánto mejor es el modelo que disparar al azar:

Ejemplo — Lift por Decil (campaña de marketing)

D1D2D3D4D5 D6D7D8D9D10

Lift = 4.8 en Decil 1 → al contactar el 10% más probable, capturas 4.8 veces más positivos que al azar

Matriz de Confusión como Estado de Resultados

Asigna costos reales a cada celda: TP: +$5,000 (fraude detectado → dinero recuperado) TN: $0 (transacción legítima correctamente aprobada) FP: -$10 (cliente molesto por bloqueo innecesario) FN: -$5,000 (fraude no detectado → pérdida directa) Valor Esperado del modelo: VE = TP×V(TP) + TN×V(TN) + FP×V(FP) + FN×V(FN) = 80(5000) + 900(0) + 20(-10) + 10(-5000) = 400,000 + 0 - 200 - 50,000 = $349,800 ← valor generado por el modelo Profit Curve: Grafica la ganancia vs. el % de población contactada Forma de montaña: sube cuando los positivos superan los costos, baja cuando contactamos cada vez más negativos El PICO = umbral óptimo de decisión

📋 Cheat Sheet — Evaluación de Modelos

Paradoja de Accuracy: con clases desbalanceadas, predecir siempre la clase mayoritaria da accuracy alta pero es inútil. Usa F1, AUC, Recall.
Precision: de lo que predije como positivo, ¿qué % era realmente positivo? (TP / predichos positivos)
Recall: de todos los positivos reales, ¿qué % detecté? (TP / reales positivos). Crítico en fraude y diagnóstico médico.
ROC-AUC para clases balanceadas. PR-AUC para clases muy desbalanceadas.
Lift = % positivos en el decil / % positivos en la muestra total. Lift 4x en D1 = 4 veces más eficiente que al azar.
Profit Curve tiene forma de montaña. El pico indica el umbral de decisión óptimo para maximizar utilidad.

🧠 Autoevaluación — Evaluación de Modelos

Demuestra numéricamente la Paradoja de la Exactitud. Tengo 1,000 clientes, 950 sanos y 50 enfermos. Mi modelo dice "sano" a todos. ¿Cuál es su accuracy, precision y recall?

Accuracy = 950/1000 = 95% (parece excelente). Precision para "enfermo" = 0/0 = indefinida (nunca predijo nadie como enfermo). Recall para "enfermo" = 0/50 = 0%. El modelo detectó CERO enfermos de 50. Su accuracy del 95% es una mentira — es completamente inútil para el propósito médico. Por eso en clases desbalanceadas siempre usamos F1, AUC o Recall en lugar de accuracy.

¿Cuándo preferirías usar PR-AUC sobre ROC-AUC? Explica con un ejemplo.

Cuando las clases están muy desbalanceadas (ej: detección de fraude donde solo el 0.5% son fraudes). La ROC-AUC puede aparecer muy alta (0.95+) porque hay muchos TN (transacciones legítimas) que son fáciles de clasificar correctamente, enmascarando el mal performance en la clase minoritaria (fraudes). La PR-AUC enfoca la evaluación en cómo el modelo maneja la clase positiva (fraude), que es la que realmente importa.
TEMA 06 / 06
🌳

Árboles de Decisión

Gini · Entropía · CART · Sobreajuste · Importancia de Variables · Optuna
🎮

Analogía — "¿Quién es quién?" (el juego de mesa)

Los árboles de decisión funcionan exactamente como el juego de "¿Quién es quién?": haces preguntas binarias ("¿Tiene lentes? ¿Sí o No?") para ir eliminando posibilidades hasta llegar a la respuesta. El algoritmo hace lo mismo con tus datos: busca la pregunta que mejor divide los datos en grupos más homogéneos, y así sucesivamente hasta que todos los grupos sean puros.

Estructura de un Árbol

Anatomía de un árbol de decisión

¿Edad ≤ 30? ← Nodo Raíz (todos los datos)
Sí ↙ ↘ No
¿Ingreso ≤ 40K? ✅ Compra = SÍ
Sí ↙ ↘ No
❌ Compra = NO ✅ Compra = SÍ
Nodo Raíz = todos los datos Nodo Interno = pregunta binaria Hoja = predicción final

Criterios de Impureza: Gini y Entropía

Para encontrar el mejor split, necesitamos medir qué tan "mezcladas" están las clases en un nodo. Un nodo puro (todos de la misma clase) tiene impureza = 0. Un nodo totalmente mezclado (50% cada clase) tiene impureza máxima.

ÍNDICE DE GINI — "probabilidad de clasificar mal al azar" I_G(t) = 1 - Σ p_k² Ejemplo: 7 perros, 3 gatos (n=10) p_perro = 0.7, p_gato = 0.3 I_G = 1 - (0.7² + 0.3²) = 1 - (0.49 + 0.09) = 0.42 Nodo puro → I_G = 0 | Máxima mezcla → I_G = 0.5 ENTROPÍA — "cuánta incertidumbre/sorpresa hay" H(t) = -Σ p_k × log₂(p_k) Mismo ejemplo: 7 perros, 3 gatos H = -(0.7×log₂(0.7) + 0.3×log₂(0.3)) = -(0.7×(-0.515) + 0.3×(-1.737)) = -(−0.361 − 0.521) = 0.88 bits Nodo puro → H = 0 | Máxima mezcla → H = 1 bit GANANCIA DE INFORMACIÓN — ¿qué tan bueno es el split? IG = H(padre) - Σ (n_hijo/n_total) × H(hijo) → Elegimos el split que MAXIMIZA la ganancia de información
Impureza según proporción de la clase positiva (p)
p = 0.0 (puro)
0.00
p = 0.1
0.18
p = 0.3
0.42
p = 0.5 (máximo)
0.50
p = 0.7
0.42
p = 0.9
0.18

Valores de Gini. La impureza es simétrica: un nodo con 90% clase 0 es igual de "puro" que uno con 90% clase 1.

Algoritmo CART — Construcción paso a paso

Para cada nodo, CART hace lo siguiente (greedy, top-down): Para cada variable xⱼ: Para cada posible punto de corte c: Split izquierda = {xi: xⱼ ≤ c} Split derecha = {xi: xⱼ > c} Ganancia = Impureza(padre) - (n_izq/n × Impureza(izq) + n_der/n × Impureza(der)) Elige el (xⱼ, c) que MAXIMIZA la ganancia Divide el nodo y repite recursivamente Criterio de parada (evita overfitting): max_depth = profundidad máxima del árbol min_samples = mínimo de muestras para dividir un nodo Nodo puro = todos los ejemplos son de la misma clase

Sobreajuste y Control de Complejidad

✂️

Analogía — Podar un bonsái

Un árbol de decisión sin control crece infinitamente hasta memorizar cada dato de entrenamiento (cada hoja contiene un solo punto). Es como un bonsái que crece sin poda — incontrolable. La poda (pruning) corta ramas que no aportan valor predictivo. El parámetro max_depth es como establecer la altura máxima antes de plantar. El objetivo: árbol lo suficientemente complejo para capturar el patrón, lo suficientemente simple para no memorizar el ruido.

Parámetro Qué controla Efecto de aumentarlo
max_depth Profundidad máxima del árbol Más preguntas → más complejo → más overfitting
min_samples_split Mínimo de muestras para dividir Más muestras requeridas → árbol más simple
min_samples_leaf Mínimo de muestras en cada hoja Más muestras por hoja → árbol más conservador
ccp_alpha Parámetro de poda por costo-complejidad Mayor penalización → más ramas podadas → más simple

Importancia de Variables vs. Permutation Importance

Importancia de Variable (Feature Importance): Mide cuánto contribuyó cada variable a reducir la impureza en todos los splits donde apareció. Variables en nodos cercanos a la raíz = más peso Problema: puede sobreestimar variables con muchos valores únicos Permutation Importance: Desordena aleatoriamente una variable y mide cuánto empeora el modelo Si al desordenar "edad" el modelo empeora mucho → "edad" es importante Más robusto y menos sesgado que Feature Importance estándar Puede aplicarse a CUALQUIER modelo (no solo árboles)

Optimización con Optuna — Búsqueda inteligente de hiperparámetros

🗺️

Analogía — El explorador vs. el cartógrafo

Grid Search es como explorar un territorio probando TODOS los puntos del mapa en orden, uno por uno — exhaustivo pero lentísimo. Optuna es como un explorador inteligente que, después de explorar varias zonas, aprende qué regiones del mapa tienen más probabilidad de contener tesoros y explora más a fondo esas zonas, ignorando las que ya mostró resultados pobres.

Grid Search: Optuna (TPE - Tree-structured Parzen): Prueba TODAS las combinaciones Prueba un subconjunto, aprende dónde max_depth = [3,5,7,10] buscar mejor, enfoca el esfuerzo min_samples = [2,5,10,20] Total: 4×4 = 16 pruebas Mucho más eficiente con muchos parámetros Optuna define un "estudio" y corre N "trials": study = optuna.create_study(direction='maximize') study.optimize(objective, n_trials=100) best_params = study.best_params Ventaja: puede manejar decenas de hiperparámetros eficientemente
🏦 Ejemplo Financiero — Árbol para decisiones de crédito

¿Por qué un banco prefiere árboles sobre redes neuronales para crédito?

El GDPR y regulaciones bancarias exigen que un cliente rechazado para un crédito tenga derecho a una explicación. Un árbol de decisión produce reglas legibles: "Tu crédito fue rechazado porque: 1) tienes menos de 12 meses de historial crediticio, Y 2) tu ratio deuda/ingreso supera 0.4." Una red neuronal no puede explicarlo. En contextos regulados, la interpretabilidad no es opcional — es un requisito legal.

⚖️ Cumplimiento regulatorio = sin multas millonarias

📋 Cheat Sheet — Árboles de Decisión

Gini: 1 - Σ p_k². Va de 0 (nodo puro) a 0.5 (máxima mezcla, 2 clases). Usa: "probabilidad de clasificar mal".
Entropía: -Σ p_k × log₂(p_k). Va de 0 a 1 bit (2 clases). Usa: "bits de incertidumbre".
CART: greedy top-down. En cada nodo elige el split que maximiza la ganancia de información.
max_depth es el parámetro más importante para controlar overfitting. Árbol profundo = alta varianza.
Feature ImportancePermutation Importance. Permutation es más robusto y aplicable a cualquier modelo.
Ventaja de árboles: interpretabilidad — puedes extraer reglas de negocio en lenguaje natural. Crítico en contextos regulados.
Optuna: busca hiperparámetros óptimos de forma inteligente (TPE). Mucho más eficiente que Grid Search exhaustivo.

🧠 Autoevaluación — Árboles de Decisión

Calcula el Índice de Gini para un nodo con 6 positivos y 4 negativos (10 total). ¿Es un nodo "puro" o muy mezclado?

p_positivo = 6/10 = 0.6, p_negativo = 4/10 = 0.4. Gini = 1 - (0.6² + 0.4²) = 1 - (0.36 + 0.16) = 1 - 0.52 = 0.48. Es un nodo bastante mezclado — cercano al máximo de 0.5. El árbol necesita hacer una pregunta para dividirlo en grupos más puros.

¿Por qué un árbol de decisión es preferible a una red neuronal en contextos bancarios regulados? ¿Qué parámetro controla principalmente el overfitting?

Porque los árboles son interpretables: generan reglas de negocio en lenguaje natural que pueden explicarse a los clientes y reguladores (el GDPR exige el "derecho a la explicación"). Una red neuronal es una "caja negra" que no puede explicar por qué tomó una decisión. El parámetro que más controla el overfitting es max_depth: a mayor profundidad, más complejo el árbol y mayor riesgo de memorizar el ruido de entrenamiento.
Tú puedes. 💪
6 temas. Revisados. Comprendidos. Ahora ve a dormir bien la noche anterior — el cerebro consolida mientras duermes.
ITAM 2026 Examen Parcial · Abril 15 Guía completa ✓