Unidad 2 Py

Pandas es una librería de Python para análisis de datos. Proporciona estructuras de datos como Series y DataFrames para almacenar y manipular datos. Los DataFrames permiten trabajar con tablas de datos etiquetados, donde cada columna es una Series. Pandas facilita la lectura, transformación y análisis de datos, así como cálculos estadísticos y agrupamiento.

Cargado por

Nico Pena

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

54 vistas10 páginas

Unidad 2 Py

Cargado por

Nico Pena

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

.

a) Introducción
Pandas es una de las librerías más utilizadas para ciencia de datos en Python. Es fácil de
usar, está basada en NumPy, con la que comparte muchas funciones y propiedades.
Con Pandas podemos leer y extraer de archivos, transformarlos y analizarlos, calcular
estadísticas, correlaciones y más.

Para empezar a utilizar pandas, debemos instalar la librería (si estamos trabajando en un
entorno local) con pip install pandas, y luego importarlo en nuestro código:

import pandas as pd

pd es un alias habitual cuando importamos esta librería.

El nombre PanDas deriva “panel data”, un término de econometría.
.b) Series y dataframes
Los dos componentes primartios de pandas son las series y el dataframe.
Una serie es una columna y un dataframes es una tabla multidimensional a partir de una
colección de series.
Por ejemplo, el siguiente dataframe esta formado por dos series: edades y alturas.

Podemos pensar en las series como un vector o array unidimensional, mientras que un
dataframes es un array multidimensional.

La principal diferencia entre las estructuras en numpy y pandas, es que los dataframes y
series es que, además de almacenar los datos, nos proporcionan los ‘labels’, que nos
permiten acceder a los datos a través de los nombres de las columnas y las filas.

.c) Creando un dataframe

Creemos un dataframe con nombres de columnas para explorar sus funciones. La manera
más fácil de hacerlo es a partir de un diccionario:
data = {
‘edades’: [18, 18, 25, 43, 36],
‘alturas’: [172, 180, 175, 167, 170]
}
Cada clave es una columna, mientras que los valores de la lista son los datos de esa
columna.
A continuación, debemos pasar el diccionario a dataframe, por medio del constructor de
pandas:
df = pd.DataFrame(data)
El dataframe crea automáticamente un número como índice para cada una de las filas.
print(df)

Estos índices se pueden modificar al crear el dataframe:

df = pd.DataFrame(data, index=[‘Juan’,’Ana’,’Clara’,’Fabio’,’Susana’])
print(df)

Accedemos a cada fila con la función loc(), que utiliza corchetes para especificar el índice.
print(df.loc[‘Clara’])
edades 25
alturas 175
Name: Clara, dtype: int64
.d) Indexando y slicing
Podemos seleccionar una columna específica con los corchetes. El resultado será un
objeto de tipo serie:
print(df[‘edades’])

Si quisiéramos seleccionar varias columnas, podemos especificarlas en una lista. En este

caso, el resultado será un dataframe:
print(df[['edades','alturas']])

Podemos utilizar este método cuando solamente nos interesan algunas de las columnas.
.d.i. Slicing
Pandas utiliza la función iloc() para seleccionar datos basándose en su índice numérico.
Funciona de la misma forma que en Python.
print(df.iloc[1]) # segunda fila
edades 18
alturas 180
Name: Ana, dtype: int64

print(df.iloc[:3]) #primeras 3 filas

print(df.iloc[1:3]) #filas 2 a 3

iloc() sigue las mismas reglas cque el slicing de listas en Python.

.e) Condicionales
Podemos seleccionar los datos basados en condiciones.
Por ejemplo, selecciones todas las filas con edades mayores a 18 y altura mayor a 170:
df2 = df[(df['edades'] > 18) & (df['alturas'] > 170)]
print(df2)

También podemos utilizar el operador | (or) para combinar condicionales.

Leyendo datos
Es muy común tener los datos en formato planilla o csv.
Pandas permite convertir archivos de estos tipos directamente en dataframes. Por
ejemplo:
df3 = pd.read_csv('pandas\estadistica.csv')
print(df3)
Es importante proporcionar la ruta correcta al archivo para poder abrirlo. Podrás encontrar
el archivo de ejemplo con el material de esta unidad.
Pandas también soporta archivos JSON, SQL, xlsx y otros formatos.
Explorando los datos
Podemos obtener las primeras filas de datos con la función head()
print(df3.head())

Por defecto, devuelve las 5 primeras líneas. Podemos especificar el número de filas que
necesitamos con un argumento, por ejemplo: df3.head(10).
De igual manera, podemos obtener las últimas filas con la función tail().
La función info() nos proporciona información esencial sobre nuestro dataset, como
número de filas, columnas y tipos de datos.
print(df3.info())
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70 entries, 0 to 69
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Nombre 70 non-null object
1 Apellido 70 non-null object
2 Salario 70 non-null int64
dtypes: int64(1), object(2)
memory usage: 1.8+ KB
None

.f) Creando columnas

Podemos agregar una columna a nuestro dataframe cuyo contenido dependa del valor de
otra de las columnas, combinando funciones de pandas y numpy.
Supongamos que queremos agregar una columna adicional, que indique qué empleados
recibirán un bono poniendo la palabra ‘BONO’ si le corresponde, o nada si no le
corresponde. La condición es que su salario sea inferior a $280.000.
La funcion where() de numpy permite asignar un valor según la siguiente sintaxis:
np.where(condición, valor por True, valor por False)
Entonces:
df3['Bono'] = np.where(df3['Salario'] < 280, 'BONO', '')
print(df3['Bono'])

0 BONO
1 BONO
2 BONO
3 BONO
4 BONO
...
65
66
67
68
69
Name: Bono, Length: 70, dtype: object
.g) Estadística
Podemos obtener un resumen estadístico a partir de las columnas numéricas de nuestro
dataset: cantidad de filas, promedio, desviación standard, mínimo, primer, segundo y
tercer cuartil y valor máximo.
df3.describe()
Salario
count 70.000000
mean 282.642857
std 18.553515
min 250.000000
25% 269.250000
50% 281.000000
75% 294.750000
max 328.000000
También podemos obtener estas estadísticas especificando al columna:
print(df['alturas'].describe())

count 5.000000
mean 172.800000
std 4.969909
min 167.000000
25% 170.000000
50% 172.000000
75% 175.000000
max 180.000000
Name: alturas, dtype: float64

.h) Agrupamiento
Podemos obtener la cantidad de personas que tienen el mismo sueldo con la función de
agrupamiento:
print(df3.groupby('Bono')['Salario'].count())

Bono
36
BONO 34
# 36 personas no recibirán bono, 34 personas lo recibirán
De manera similar, podemos obtener la suma de los salarios, mínimo, maximo, etc.
aplicando las diferentes funciones al agrupamiento elegido.

También podría gustarte

Pandas
Aún no hay calificaciones
Pandas
53 páginas
Guía de Pandas para Análisis de Datos
100% (1)
Guía de Pandas para Análisis de Datos
67 páginas
Unidad 8 Pensamiento Computacional
Aún no hay calificaciones
Unidad 8 Pensamiento Computacional
14 páginas
Guía de referencia de Pandas
100% (1)
Guía de referencia de Pandas
2 páginas
Pandas y Python
100% (1)
Pandas y Python
24 páginas
Uso de pd.cut en análisis de datos
Aún no hay calificaciones
Uso de pd.cut en análisis de datos
64 páginas
Unidad 2 Manipulación de Datos Con Pandas
Aún no hay calificaciones
Unidad 2 Manipulación de Datos Con Pandas
34 páginas
Clase - Python 6 (24 - II)
Aún no hay calificaciones
Clase - Python 6 (24 - II)
29 páginas
PensamientoComputacional Editado
Aún no hay calificaciones
PensamientoComputacional Editado
13 páginas
Pandas PensamientoComputacional 1c 2023
Aún no hay calificaciones
Pandas PensamientoComputacional 1c 2023
9 páginas
M3 Analisis de Datos - Obtención y Preparación de Datos. (AE2)
Aún no hay calificaciones
M3 Analisis de Datos - Obtención y Preparación de Datos. (AE2)
55 páginas
LEARNING
Aún no hay calificaciones
LEARNING
78 páginas
Taller Pandas
Aún no hay calificaciones
Taller Pandas
15 páginas
Pandas
100% (5)
Pandas
172 páginas
Análisis de Datos con Pandas y Visualización
Aún no hay calificaciones
Análisis de Datos con Pandas y Visualización
23 páginas
Maneja y Analiza Datos Con DataFrames de Pandas y Python
Aún no hay calificaciones
Maneja y Analiza Datos Con DataFrames de Pandas y Python
3 páginas
Ap S10 - Pandas - Colab
Aún no hay calificaciones
Ap S10 - Pandas - Colab
7 páginas
Python y Pandas en Ciencia de Datos
Aún no hay calificaciones
Python y Pandas en Ciencia de Datos
11 páginas
Ev2 Eq4 Reporte Tecnico Sobre Analisis de Datos Con Pandas
Aún no hay calificaciones
Ev2 Eq4 Reporte Tecnico Sobre Analisis de Datos Con Pandas
20 páginas
Análitica de Datos 2
Aún no hay calificaciones
Análitica de Datos 2
6 páginas
Inteligencia Artificial y Ciencia de Datos - Data - Base
Aún no hay calificaciones
Inteligencia Artificial y Ciencia de Datos - Data - Base
21 páginas
P3 IAA Rodriguez Zubaran Carlos Erick
Aún no hay calificaciones
P3 IAA Rodriguez Zubaran Carlos Erick
11 páginas
Guía de Examen Final
Aún no hay calificaciones
Guía de Examen Final
39 páginas
Manual Pandas
Aún no hay calificaciones
Manual Pandas
21 páginas
Comenzando Con Pandas y Numpy
Aún no hay calificaciones
Comenzando Con Pandas y Numpy
11 páginas
Actividad José Ruiz Implementación de Pandas
Aún no hay calificaciones
Actividad José Ruiz Implementación de Pandas
3 páginas
Análisis y Visualización de Datos Usando Python - Comenzando Con Datos
Aún no hay calificaciones
Análisis y Visualización de Datos Usando Python - Comenzando Con Datos
15 páginas
Pandas Cheatsheet
Aún no hay calificaciones
Pandas Cheatsheet
2 páginas
Prac 01
Aún no hay calificaciones
Prac 01
17 páginas
FP Clase14
Aún no hay calificaciones
FP Clase14
26 páginas
Guía de Uso de Pandas para Ciencia de Datos
Aún no hay calificaciones
Guía de Uso de Pandas para Ciencia de Datos
41 páginas
FP Unidad 08 v4 20170417
Aún no hay calificaciones
FP Unidad 08 v4 20170417
45 páginas
01 - Librería Pandas
Aún no hay calificaciones
01 - Librería Pandas
43 páginas
Guía Completa de Pandas en Python
Aún no hay calificaciones
Guía Completa de Pandas en Python
12 páginas
Libreria de Pandas
Aún no hay calificaciones
Libreria de Pandas
5 páginas
Introducción a DataFrames en Pandas
Aún no hay calificaciones
Introducción a DataFrames en Pandas
37 páginas
5 - Pandas
Aún no hay calificaciones
5 - Pandas
41 páginas
ProgrammToolsPython 3 2 2021
Aún no hay calificaciones
ProgrammToolsPython 3 2 2021
21 páginas
Práctica Pandas en Python: DataFrames
Aún no hay calificaciones
Práctica Pandas en Python: DataFrames
2 páginas
Repaso Tripleten
Aún no hay calificaciones
Repaso Tripleten
6 páginas
Sesion 06 - Power BI Con Python (Python)
Aún no hay calificaciones
Sesion 06 - Power BI Con Python (Python)
23 páginas
Tema 10 - Guia de Inteligencia Artificial
Aún no hay calificaciones
Tema 10 - Guia de Inteligencia Artificial
16 páginas
Introducción a Pandas para Estudiantes
Aún no hay calificaciones
Introducción a Pandas para Estudiantes
10 páginas
Parcial N2
Aún no hay calificaciones
Parcial N2
4 páginas
Guía de Proyecto con Anaconda y Pandas
Aún no hay calificaciones
Guía de Proyecto con Anaconda y Pandas
5 páginas
1.intro Python Pandas
Aún no hay calificaciones
1.intro Python Pandas
24 páginas
Parte4 Pandas
Aún no hay calificaciones
Parte4 Pandas
36 páginas
Prácticas Pandas: Series y DataFrames
Aún no hay calificaciones
Prácticas Pandas: Series y DataFrames
2 páginas
S5-Tarea 2
Aún no hay calificaciones
S5-Tarea 2
9 páginas
Sesion 20221126
Aún no hay calificaciones
Sesion 20221126
20 páginas
Python y Pandas para Ciencia de Datos
Aún no hay calificaciones
Python y Pandas para Ciencia de Datos
7 páginas
Clase 3 Numpy Pandas
Aún no hay calificaciones
Clase 3 Numpy Pandas
16 páginas
M1 - Clase 04 - PANDAS
Aún no hay calificaciones
M1 - Clase 04 - PANDAS
50 páginas
Funciones Básicas Ciencia de Datos
Aún no hay calificaciones
Funciones Básicas Ciencia de Datos
22 páginas
ADAT
Aún no hay calificaciones
ADAT
11 páginas
Unidad 3 Uso Libreria Pandas
Aún no hay calificaciones
Unidad 3 Uso Libreria Pandas
18 páginas
Canciones Con Notas para Quena
Aún no hay calificaciones
Canciones Con Notas para Quena
4 páginas
Programa de Capacitacion Rev 1
Aún no hay calificaciones
Programa de Capacitacion Rev 1
1 página
Comparativa de Absorción en Papeles
Aún no hay calificaciones
Comparativa de Absorción en Papeles
9 páginas
Circuitos Electricos
Aún no hay calificaciones
Circuitos Electricos
2 páginas
Titán (Satélite)
Aún no hay calificaciones
Titán (Satélite)
19 páginas
Innovaciòn Pedagogico - Sesión 07 Paneles y Murales (3) 2023
Aún no hay calificaciones
Innovaciòn Pedagogico - Sesión 07 Paneles y Murales (3) 2023
19 páginas
FORMATO PLANEACION OFICIOS Y PROFESIONES PROYECTO Corregido Clau
Aún no hay calificaciones
FORMATO PLANEACION OFICIOS Y PROFESIONES PROYECTO Corregido Clau
10 páginas
Que Son Los BIG3
Aún no hay calificaciones
Que Son Los BIG3
62 páginas
Foro 01 de Artículo Científico N°3
Aún no hay calificaciones
Foro 01 de Artículo Científico N°3
5 páginas
Optimización de Documentos para SEO
Aún no hay calificaciones
Optimización de Documentos para SEO
8 páginas
Proyecto Integrador
Aún no hay calificaciones
Proyecto Integrador
16 páginas
Inspección Técnica en Obras Civiles METOR
Aún no hay calificaciones
Inspección Técnica en Obras Civiles METOR
181 páginas
Auditoría COBIT en Informática de Ekipa S.A.
100% (1)
Auditoría COBIT en Informática de Ekipa S.A.
50 páginas
Curso de Key Account Management CESA
Aún no hay calificaciones
Curso de Key Account Management CESA
13 páginas
Presupuesto Flexible - Básico
Aún no hay calificaciones
Presupuesto Flexible - Básico
7 páginas
Examen Grado 10 Física
Aún no hay calificaciones
Examen Grado 10 Física
3 páginas
Avisos Notariales
Aún no hay calificaciones
Avisos Notariales
44 páginas
Rúbricas de Desempeño en Educación Física
Aún no hay calificaciones
Rúbricas de Desempeño en Educación Física
3 páginas
Tarea Global
Aún no hay calificaciones
Tarea Global
8 páginas
Ficha. Ps. 22-9
100% (4)
Ficha. Ps. 22-9
3 páginas
Evolución Comercial en Mesopotamia
Aún no hay calificaciones
Evolución Comercial en Mesopotamia
2 páginas
Clasificación Heridas Quirúrgicas
Aún no hay calificaciones
Clasificación Heridas Quirúrgicas
3 páginas
Power Bi
Aún no hay calificaciones
Power Bi
10 páginas
Intermediarios Financieron
Aún no hay calificaciones
Intermediarios Financieron
5 páginas
Informe de Práctica Profesional
Aún no hay calificaciones
Informe de Práctica Profesional
19 páginas
Umsa Bar Teamatico
Aún no hay calificaciones
Umsa Bar Teamatico
171 páginas
Uso de Wireshark para Examinar Una Captura de UDP y DNS
Aún no hay calificaciones
Uso de Wireshark para Examinar Una Captura de UDP y DNS
2 páginas
Calidad de La Canal Porcina
Aún no hay calificaciones
Calidad de La Canal Porcina
33 páginas
Cadena de Frío en Salud Pública
Aún no hay calificaciones
Cadena de Frío en Salud Pública
9 páginas
Napko 4102 rp4 A
Aún no hay calificaciones
Napko 4102 rp4 A
2 páginas