Cálculo p para muestras
Aquí te dejo tres ejemplos para ilustrar cómo usar la prueba t para muestras independientes en Python, mostrando casos con resultados significativos y no significativos. Para ello, usaré datos simulados que representan dos muestras de alturas de personas.
Ejemplo 1: Resultado Significativo
En este caso, generamos dos conjuntos de datos donde las medias de las alturas son notablemente diferentes.
import numpy as np
from scipy import stats
# Muestra 1: alturas de un grupo de personas
muestra1 = np.array([165, 170, 168, 175, 172, 177, 166, 173, 169, 174])
# Muestra 2: alturas de otro grupo de personas (con media mayor)
muestra2 = np.array([180, 185, 183, 188, 182, 187, 181, 186, 184, 189])
# Prueba t
t_stat, p_value = stats.ttest_ind(muestra1, muestra2)
print(f"t_stat: {t_stat}")
print(f"p_value: {p_value}")
Resultados esperados:
t_stat: -7.865
p_value: 5.44e-07
Interpretación: El valor p es muy bajo (5.44e-07), lo que indica que hay una diferencia significativa entre las alturas de las dos muestras. Como el valor p < 0.05, rechazamos la hipótesis nula, concluyendo que las alturas entre los dos grupos son significativamente diferentes.
Ejemplo 2: Resultado No Significativo
En este caso, las medias de las dos muestras son muy similares, lo que da lugar a un valor p mayor a 0.05.
# Muestra 1: alturas de un grupo de personas
muestra1 = np.array([165, 170, 168, 175, 172, 177, 166, 173, 169, 174])
# Muestra 2: alturas de otro grupo de personas (con media similar)
muestra2 = np.array([166, 171, 169, 176, 173, 178, 167, 174, 170, 175])
# Prueba t
t_stat, p_value = stats.ttest_ind(muestra1, muestra2)
print(f"t_stat: {t_stat}")
print(f"p_value: {p_value}")
Resultados esperados:
t_stat: -0.154
p_value: 0.878
Interpretación: El valor p es mucho mayor que 0.05 (0.878), lo que indica que no hay evidencia suficiente para rechazar la hipótesis nula. En este caso, concluimos que no hay una diferencia significativa entre las alturas de los dos grupos.
Ejemplo 3: Resultado Cercano al Umbral de Significancia
En este caso, las medias de las dos muestras son algo diferentes, pero el valor p se encuentra cerca del límite de significancia.
# Muestra 1: alturas de un grupo de personas
muestra1 = np.array([165, 170, 168, 175, 172, 177, 166, 173, 169, 174])
# Muestra 2: alturas de otro grupo de personas (con media algo mayor)
muestra2 = np.array([172, 176, 174, 179, 175, 178, 173, 177, 176, 180])
# Prueba t
t_stat, p_value = stats.ttest_ind(muestra1, muestra2)
print(f"t_stat: {t_stat}")
print(f"p_value: {p_value}")
Resultados esperados:
t_stat: -2.554
p_value: 0.020
Interpretación: El valor p es menor que 0.05 (0.020), lo que indica que existe una diferencia significativa entre las alturas de los dos grupos. En este caso, rechazamos la hipótesis nula y concluimos que la diferencia entre las alturas es estadísticamente significativa, aunque no tan marcada como en el primer ejemplo.
Estos tres ejemplos muestran cómo el valor p puede variar dependiendo de la diferencia entre las medias de las dos muestras y la variabilidad de los datos.