TP y FP
La Tasa de Verdaderos Positivos (TP Rate) y la Tasa de Falsos Positivos (FP Rate) son métricas utilizadas para evaluar el rendimiento de un modelo de clasificación, especialmente en problemas de clasificación binaria. Ambas métricas se derivan de la matriz de confusión, que resume el rendimiento del modelo al comparar las predicciones con las etiquetas verdaderas.
1. Tasa de Verdaderos Positivos (TP Rate)
- Definición: La Tasa de Verdaderos Positivos (TP Rate), también conocida como Recall o Sensibilidad, es la proporción de instancias positivas que han sido correctamente clasificadas como positivas por el modelo.
- Fórmula: TP Rate = TP/(TP + FN)Donde:
- TP (True Positives): Verdaderos positivos, es decir, el número de instancias que son realmente positivas y fueron clasificadas correctamente como positivas.
- FN (False Negatives): Falsos negativos, es decir, el número de instancias que son realmente positivas pero fueron clasificadas incorrectamente como negativas.
- Interpretación:
- Un TP Rate alto indica que el modelo es bueno para identificar las instancias positivas.
- En contextos médicos, un TP Rate alto es crucial, ya que significa que pocas personas con la condición pasan desapercibidas (falsos negativos).
- Ejemplo:
- Supongamos que en un estudio de detección de una enfermedad hay 100 personas enfermas (positivas) y el modelo identifica correctamente a 80 de ellas.
- Entonces: TP Rate = 80/(80 + 20) = 0.8 o 80%
2. Tasa de Falsos Positivos (FP Rate)
- Definición: La Tasa de Falsos Positivos (FP Rate) es la proporción de instancias negativas que han sido incorrectamente clasificadas como positivas por el modelo.
- Fórmula: FP Rate = FP/(FP + TN) Donde:
- FP (False Positives): Falsos positivos, es decir, el número de instancias que son realmente negativas pero fueron clasificadas incorrectamente como positivas.
- TN (True Negatives): Verdaderos negativos, es decir, el número de instancias que son realmente negativas y fueron clasificadas correctamente como negativas.
- Interpretación:
- Un FP Rate bajo indica que el modelo tiene una buena capacidad para no confundir instancias negativas como positivas.
- Un FP Rate alto puede ser problemático, especialmente en contextos donde las implicaciones de un falso positivo son graves (como en la detección de fraudes o enfermedades).
- Ejemplo:
- Siguiendo con el estudio de detección de una enfermedad, supongamos que hay 100 personas sanas (negativas) y el modelo clasifica incorrectamente a 10 de ellas como enfermas.
- Entonces: FP Rate10/(10 + 90) = 0.1 o 10\%
Resumen de las Métricas
- TP Rate (Recall):
- Refleja la capacidad del modelo para identificar correctamente las instancias positivas.
- Es fundamental en contextos donde la detección de casos positivos es crítica.
- FP Rate:
- Mide la proporción de instancias negativas que son incorrectamente clasificadas como positivas.
- Es importante en contextos donde se desea evitar errores de clasificación que pueden tener consecuencias negativas.
Ejemplo Comparativo
Imagina un modelo que clasifica correos electrónicos como “spam” o “no spam”. Supongamos que tenemos:
- Total de correos: 200
- Spam reales (positivos): 100 (TP)
- No spam reales (negativos): 100 (TN)
- Spam clasificados incorrectamente como no spam: 30 (FN)
- No spam clasificados como spam: 20 (FP)
- Para este modelo:
- TP Rate: [ \text{TP Rate} = \frac{TP}{TP + FN} = \frac{70}{70 + 30} = \frac{70}{100} = 0.7 \text{ o } 70\% ]
- FP Rate: [ \text{FP Rate} = \frac{FP}{FP + TN} = \frac{20}{20 + 80} = \frac{20}{100} = 0.2 \text{ o } 20\% ]
Con estos ejemplos y explicaciones, puedes ver cómo la Tasa de Verdaderos Positivos y la Tasa de Falsos Positivos son esenciales para evaluar el rendimiento de un modelo de clasificación, y cómo afectan la interpretación de los resultados en diferentes contextos.