Información de dataframes
Aquí tienes un listado de los principales métodos de Pandas para obtener información de un DataFrame
, junto con ejemplos de uso:
Métodos para Obtener Información de un DataFrame
1. head()
Este método devuelve las primeras n
filas del DataFrame
. Por defecto, muestra las primeras 5 filas.
import pandas as pd
data = {
'Nombre': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
'Edad': [24, 27, 22, 32, 29],
'Salario': [50000, 60000, 55000, 70000, 65000]
}
df = pd.DataFrame(data)
# Obtener las primeras 3 filas
print(df.head(3))
Output:
Nombre Edad Salario
0 Alice 24 50000
1 Bob 27 60000
2 Charlie 22 55000
2. tail()
Devuelve las últimas n
filas del DataFrame
. Por defecto, muestra las últimas 5 filas.
# Obtener las últimas 2 filas
print(df.tail(2))
Output:
Nombre Edad Salario
3 David 32 70000
4 Eva 29 65000
3. info()
Proporciona un resumen conciso del DataFrame
, incluyendo el número de entradas, nombres de columnas, tipo de datos y cantidad de valores no nulos.
# Obtener información sobre el DataFrame
df.info()
Output:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Nombre 5 non-null object
1 Edad 5 non-null int64
2 Salario 5 non-null int64
dtypes: int64(2), object(1)
memory usage: 136.0+ bytes
4. describe()
Genera estadísticas descriptivas sobre las columnas numéricas, como la media, desviación estándar, valor mínimo, percentiles y máximo.
# Obtener estadísticas descriptivas
print(df.describe())
Output:
Edad Salario
count 5.000000 5.000000
mean 26.000000 62000.000000
std 3.162278 7071.067812
min 22.000000 50000.000000
25% 24.000000 55000.000000
50% 27.000000 60000.000000
75% 29.000000 65000.000000
max 32.000000 70000.000000
5. shape
Devuelve una tupla que representa las dimensiones del DataFrame
(número de filas y columnas).
# Obtener las dimensiones del DataFrame
print(df.shape) # Output: (5, 3)
6. columns
Devuelve los nombres de las columnas del DataFrame
.
# Obtener los nombres de las columnas
print(df.columns)
Output:
Index(['Nombre', 'Edad', 'Salario'], dtype='object')
7. index
Devuelve los índices (etiquetas de fila) del DataFrame
.
# Obtener los índices del DataFrame
print(df.index)
Output:
RangeIndex(start=0, stop=5, step=1)
8. dtypes
Devuelve los tipos de datos de cada columna del DataFrame
.
# Obtener los tipos de datos de las columnas
print(df.dtypes)
Output:
Nombre object
Edad int64
Salario int64
dtype: object
9. value_counts()
Devuelve la frecuencia de los valores únicos en una columna específica.
# Crear un DataFrame adicional
data2 = {
'Nombre': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Alice'],
'Edad': [24, 27, 22, 32, 29, 24],
'Salario': [50000, 60000, 55000, 70000, 65000, 50000]
}
df2 = pd.DataFrame(data2)
# Obtener conteo de valores únicos en la columna 'Nombre'
print(df2['Nombre'].value_counts())
Output:
Alice 2
Bob 1
Charlie 1
David 1
Eva 1
Name: Nombre, dtype: int64
10. isnull()
Devuelve un DataFrame
de valores booleanos que indican si los elementos son nulos.
# Crear un DataFrame con algunos valores nulos
data3 = {
'Nombre': ['Alice', 'Bob', None, 'David', 'Eva'],
'Edad': [24, None, 22, 32, 29]
}
df3 = pd.DataFrame(data3)
# Comprobar valores nulos
print(df3.isnull())
Output:
Nombre Edad
0 False False
1 False True
2 True False
3 False False
4 False False
Resumen
Estos métodos son fundamentales para obtener información y explorar un DataFrame
en Pandas. Cada uno de ellos proporciona una forma diferente de interactuar con los datos, lo que facilita la limpieza, la manipulación y el análisis. Utilizar estas herramientas de manera efectiva puede ayudarte a comprender mejor tus datos y realizar análisis más informados.