Coeficiente de Correlación de Matthews (MCC)
El Coeficiente de Correlación de Matthews (MCC) es una métrica utilizada para evaluar el rendimiento de un clasificador binario. Es especialmente útil porque proporciona una medida equilibrada del rendimiento del modelo incluso cuando las clases están desbalanceadas (es decir, cuando una clase tiene significativamente más instancias que la otra). A menudo se considera una métrica más completa que la precisión o el recall cuando las clases están desbalanceadas.
1. Definición del MCC
El MCC es esencialmente una correlación entre las predicciones del modelo y los valores reales. Toma en cuenta las verdaderas y falsas clasificaciones tanto positivas como negativas. Un valor de MCC alto indica que el modelo hace buenas predicciones tanto para la clase positiva como para la clase negativa.
Fórmula:
[ \text{MCC} = \frac{\text{TP} \times \text{TN} – \text{FP} \times \text{FN}}{\sqrt{(\text{TP} + \text{FP})(\text{TP} + \text{FN})(\text{TN} + \text{FP})(\text{TN} + \text{FN})}} ]
Donde:
- TP: Verdaderos positivos.
- TN: Verdaderos negativos.
- FP: Falsos positivos.
- FN: Falsos negativos.
2. Interpretación del MCC
Los valores de MCC pueden variar entre -1 y 1:
- MCC = 1: El clasificador es perfecto; todas las predicciones coinciden con los valores reales.
- MCC = 0: No hay correlación entre las predicciones y los valores reales; el modelo no tiene más valor que una clasificación aleatoria.
- MCC = -1: El clasificador es completamente incorrecto; todas las predicciones son incorrectas.
El MCC tiene la ventaja de que toma en cuenta todas las categorías de la matriz de confusión (TP, TN, FP, FN), lo que lo convierte en una métrica robusta para conjuntos de datos desbalanceados.
3. Ejemplo para entender el MCC
Imagina que tienes un conjunto de datos desbalanceado donde estás clasificando si un correo electrónico es spam o no spam.
- Verdaderos Positivos (TP): Correos que realmente son spam y que el modelo clasificó correctamente como spam.
- Verdaderos Negativos (TN): Correos que no son spam y que el modelo clasificó correctamente como no spam.
- Falsos Positivos (FP): Correos que no son spam, pero que el modelo clasificó incorrectamente como spam.
- Falsos Negativos (FN): Correos que son spam, pero que el modelo clasificó incorrectamente como no spam.
Supongamos los siguientes valores de la matriz de confusión:
- TP = 70 (correos spam correctamente identificados).
- TN = 90 (correos no spam correctamente identificados).
- FP = 30 (correos no spam clasificados erróneamente como spam).
- FN = 10 (correos spam que no se detectaron).
Podemos calcular el MCC utilizando estos valores en la fórmula:
[ \text{MCC} = \frac{(70 \times 90) – (30 \times 10)}{\sqrt{(70 + 30)(70 + 10)(90 + 30)(90 + 10)}} ] [ \text{MCC} = \frac{6300 – 300}{\sqrt{100 \times 80 \times 120 \times 100}} = \frac{6000}{\sqrt{96000000}} = \frac{6000}{9797.96} = 0.612 ]
El valor de 0.612 sugiere que el modelo tiene una buena correlación entre sus predicciones y los valores reales, aunque no es perfecto.
4. Diferencia entre MCC y otras métricas (Precisión, F-Measure, TP Rate)
- Precisión: Solo toma en cuenta los verdaderos positivos y los falsos positivos. Si el conjunto de datos está desbalanceado, la precisión puede ser alta aunque el modelo no esté funcionando bien para la clase minoritaria.
- TP Rate (Recall): Solo toma en cuenta los verdaderos positivos y los falsos negativos. Se enfoca en los casos en los que el modelo falla en identificar la clase positiva.
- F-Measure: Es una media armónica de la precisión y el recall. Útil cuando hay un interés en equilibrar falsos positivos y falsos negativos, pero no toma en cuenta los verdaderos negativos.
- MCC: A diferencia de las métricas anteriores, el MCC considera todos los elementos de la matriz de confusión (TP, TN, FP, FN), proporcionando una visión más completa y equilibrada del rendimiento del modelo, especialmente cuando las clases están desbalanceadas.
5. Ejemplo comparativo para comprender el MCC
Imagina dos clasificadores para detectar fraudes en transacciones financieras:
Clasificador A (datos desbalanceados):
- TP: 5 fraudes detectados correctamente.
- FP: 100 transacciones legítimas clasificadas erróneamente como fraude.
- TN: 900 transacciones legítimas detectadas correctamente.
- FN: 50 fraudes no detectados.
El clasificador tiene una precisión baja para identificar fraudes, y muchas transacciones legítimas son clasificadas erróneamente. El MCC sería:
[ \text{MCC} = \frac{(5 \times 900) – (100 \times 50)}{\sqrt{(5 + 100)(5 + 50)(900 + 100)(900 + 50)}} = \frac{4500 – 5000}{\sqrt{105 \times 55 \times 1000 \times 950}} = \frac{-500}{\sqrt{5486250000}} = -0.0067 ]
El valor negativo cercano a cero indica que el modelo casi no tiene correlación con los valores reales, es decir, no es mucho mejor que un clasificador aleatorio.
Clasificador B (mejor rendimiento):
- TP: 40 fraudes detectados correctamente.
- FP: 10 transacciones legítimas clasificadas como fraude.
- TN: 990 transacciones legítimas detectadas correctamente.
- FN: 10 fraudes no detectados.
El MCC sería:
[ \text{MCC} = \frac{(40 \times 990) – (10 \times 10)}{\sqrt{(40 + 10)(40 + 10)(990 + 10)(990 + 10)}} = \frac{39600 – 100}{\sqrt{50 \times 50 \times 1000 \times 1000}} = \frac{39500}{50000} = 0.79 ]
Este valor de 0.79 indica una alta correlación entre las predicciones y los valores reales, reflejando un buen rendimiento del modelo.
6. Cuándo usar el MCC
El MCC es particularmente útil en los siguientes casos:
- Clases desbalanceadas: Cuando tienes un conjunto de datos con muchas más instancias de una clase que de la otra, como en la detección de fraudes, cáncer o correos electrónicos de spam. Otras métricas como precisión o recall pueden ser engañosas en estos casos, pero el MCC da una evaluación más equilibrada.
- Evaluación general del clasificador: Si quieres una métrica que considere tanto la capacidad del modelo para identificar la clase positiva como la negativa, el MCC es adecuado porque evalúa el rendimiento en ambos lados de la matriz de confusión (TP, TN, FP, FN).
7. Resumen
- El MCC proporciona una métrica de evaluación equilibrada que considera tanto los errores positivos como negativos.
- Es más confiable que otras métricas (precisión, recall, F-Measure) en casos de clases desbalanceadas.
- MCC varía de -1 (clasificación completamente errónea) a 1 (clasificación perfecta), con 0 representando una clasificación aleatoria.