Ejemplo con iris
Aquí hay un código para calcular la covarianza y correlación entre las diferentes series de iris.arff
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# Cargar el archivo ARFF de Iris
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data',
names=['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'species'])
# Seleccionar solo las columnas numéricas para el análisis
variables_numericas = df.drop(columns=['species'])
# Mostrar las primeras filas del DataFrame para ver los datos
print(variables_numericas.head())
# Calcular la covarianza entre las variables
covarianza = variables_numericas.cov()
print("\nCovarianza entre las variables:\n", covarianza)
# Calcular la correlación entre las variables
correlacion = variables_numericas.corr()
print("\nCorrelación entre las variables:\n", correlacion)
# Visualizar la correlación con un heatmap
plt.figure(figsize=(8,6))
sns.heatmap(correlacion, annot=True, cmap='coolwarm', fmt='.2f')
plt.title("Mapa de Calor de la Correlación entre Variables del Conjunto de Datos Iris")
plt.show()