Ejercicio 9: Análisis global de los datos
En la web siguiente:
Encontramos muchos datasets utilizados para realizar análisis de datos. Pero vamos a utilizar un dataset de prueba de sklearn para ver qué podemos averiguar de los datos que están incluidos.
El dataset es un análisis de vinos para clasificarlos en tres tipos. Podemos obtener el dataset con el siguiente código:
from sklearn.datasets import load_wine wine=load_wine() df = pd.DataFrame(wine.data, columns=wine.feature_names)
Vamos a analizar la información que contiene. ¿Cuántas muestras tenemos? ¿Qué características se analizan?
Para cada una de las características me interesaría saber sus medidas de estadística descriptiva: Rango, media, mediana, moda, desviación estándar, asimetría, kurtosis…
Vamos a analizar si hay correlación entre alguna de las características. Puede ser negativa, positiva o neutra. No hace falta hacerlo para todas, pero en las tres más significativas podemos calcular el coeficiente p.
Tenéis que entregar el código python para resolver el problema y un documento con un breve análisis de los resultados.
Recordad las siguientes cosas:
1.- Una vez creado el DataFrame tenemos la opción de acceder a cada columna por su nombre (ej. df[“alcohol”]
2.- df.corr() nos devuelve un DataFrame con la correlación entre cada par de características
3.- Puedo recorrer las columnas haciendo:
for columna in wine.feature_names:
O en general para cualquier DataFrame
for columna in df.columns: print(columna)
4.- Calcular el coeficiente pearson es fácil con la librería
from scipy.stats import pearsonr