1 – IMPORTANDO BLIBLIOTECAS (NUMPY, PANDAS, MATPLOTLIB)
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import colorsys
plt.style.use('seaborn-talk')
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline
2 – CARREGANDO ARQUIVO
2.1 – CARREGANDO ARQUIVO (CSV)
BASE = pd.read_csv(‘base.cvs’, sep=’;’, low_memory=False, decimal=",", parse_dates
=['DAT_ATEND_EFETIVO_SELECIONADO']);
Sep – comando que especifica o separador de colunas;
low_memory - Para colunas com tipos de dados String usar o comando
low_memory=False;
decimal – especifica o separador de casas decimais;
parse_dates – converte uma variável em data;
encoding = 'unicode_escape' – especificar de qual pais é o arquivo;
2.2 – CARREGANDO ARQUIVO (TXT)
2.3 – CARREGANDO ARQUIVO (EXCEL)
Para carregar arquivo excel usar a seguinte sintaxe:
pd.read_excel('nome_arquivo.xlsx', skiprows = 2, skipfooter = 16);
skiprows -> para informar onde começa os titulos da base;
skipfooter -> descarta as ultimas linhas.
Obs: Converter string em numero
1) base[‘nome coluna’] = base[‘nome coluna’].astype(int)
2) base[‘nome coluna’] = base[‘nome coluna’].str.replace(‘.’, ‘’).astype(int)
3) base[‘nome coluna’] = base[‘nome coluna’].astype(float)
3 – DESCREVENDO ARQUIVO
3.1 – EXIBINDO O NOME E OS TIPOS DAS COLUNAS
BASE.dtypes;
Dtypes – comando utilizado para exibir o nome e o tipo de cada uma das colunas.
3.2 – DESCREVENDO AS PRINICIPAIS CARACTERISTICA DOS DADOS
BASE.describe();
describe() – comando utilizado para descrever as principais caracteristicas dos dados.
3.3 – VERIFICANDO A QUANTIDADE DE DADOS POR COLUNA
BASE.info();
Info() – comando utilizado para verificar se há dados faltando em uma variavel.
3.4 – VERIFICANDO O TAMANHO DO ARQUIVO
BASE.shape;
shape – comando utilizado para verificar a quantidade de linhas e colunas.
4 – EXIBINDO AS PRIMEIRAS LINHAS DA BASE CARREGADA
BASE.head(5);
Head() – comando utilizado para exibir as primeiras linhas, entre parênteses
especificar a quantidade de linhas que se deseja exibir.
5 – EXIBINDO OS VALORES UNICOS
BASE[‘NOME COLUNA’].unique();
unique() – comando utilizado para exibir os valores unicos de uma variavel.
6 – CRIAR SUB CONJUNTOS
6.1 – ESPECIFICANDO AS COLUNAS
NOVA_BASE = BASE[['COD_BENEFIC', 'DAT_INTERNACAO_INTERN', 'DAT_ALTA_INTERN','VAL_ITEM_PAGO']]
Para criar sub conjuntos em um base, temos que colocar as colunas desejadas dessa
base entre chaves[] conforme sintaxe acima.
6.2 – FILTRANDO A BASE
a) BASE[BASE['COD_BENEFIC'] == 1000020] ou BASE[BASE.COD_BENEFIC == 1000020]
b) BASE[(BASE['COD_BENEFIC'] == 1000020) | (BASE['COD_BENEFIC'] == 1000021)] ou
BASE[(BASE.COD_BENEFIC == 1000020) | (BASE.COD_BENEFIC == 1000021)]
Para filtrar a base é necessário colocar a condição na variável conforme exemplos
acima.
Símbolos:
== atribuição
!= diferente
& simbo e
Filtrando com uma parte da palavra:
Sintaxe: base[base['coluna'].str.contais(‘parte da palavra’)]
Exemplo: hospital_base[hospital_base['PROCEDIMENTO'].str.contains('AMPUTA')]
8 – AGRUPANDO DADOS
1)BASE.groupby(['COD_BENEFIC', 'DAT_INTERNACAO_INTERN', 'DAT_ALTA_INTERN']).sum().sort_values('VAL_ITEM_PAGO',
ascending = False) ;
2)BASE[[“COL1”, “COL2”]].groupby([“COL1”]).sum();
3)BASE[[“COL1”, “COL2”, “COL3”]].groupby([“COL1” , “COL2”]).sum();
Para agrupar dados usar o comando groupby conforme sintaxe acima, nesse comando
usar expressão de agrupamento (sum, max, min, entre outros) mais a função sort_values para
especificar a variável de agrupamento.
9 – ORDENANDO DADOS
Em muitos casos há a necessidade de ordenar uma variável, para isso o python usa o
comando sort_values, conforme sintaxe abaixo.
df.sort_values(['col_A', ascending = False]).
Caso queria ordenar em nives usa a sintaxe a seguir.
df.sort_values(['col_A', 'col_B']).
10 – UNIFICANDO BASES DE DADOS
Para unificar bases de dados o python usa as funções merge, join, append ou concat. A
função concat unifica as bases sem precisar de uma coluna chave, abaixo a sintaxe:
A) Concat
Pd.concat([BASE_A, BASE_B], ignore_index=True);
B) Merge
A função merge é a mais indicada para ocasiões que necessitam de uma ou mais
chaves, abaixo alguns exemplos com a utilização de chaves.
Sintaxe:
pd.merge(base_A, base_B, on="coluna_coincidente", how="left|right|inner|outer);
pd.merge(base_A, base_B, on=["coluna_1","coluna_2"], how="left|right|inner|outer");
Obs: Caso as colunas chaves não possuírem o mesmo nome usar a sintaxe abaixo:
pd.merge(base_A, base_B, right_on=["coluna_direita_1","coluna_direita_2"],
left_on=["coluna_esquerda_1","coluna_esquerda_2"], how="left|right|inner|outer").
Obs: usar uma das notações (left|right|inner|outer) para unir as bases que se deseja.
C) Join
A função join também indicada para ocasiões que necessitam de uma ou mais chaves,
abaixo alguns exemplos com a utilização de chaves.
Sintaxe:
Base_A.join(Base_B, how="left|right|inner|outer” );
D) Append
A função append unifica duas ou mais bases desde que as bases tenham as mesmas
colunas.
Sintaxe:
Base_A.append(Base_B, ignore_index=True).
11 – TRABALHANDO COM STRING
Para fatiar uma variável do tipo string no python, usa-se a sintaxe
abaixo:
base_A['COL_NOVA'] = base_A['COL_NOME'].str[i:j];
onde i é o valor inicial da variável e j é o valor final.
12 – TRABALHANDO COM DATA
Para trabalhar com data usa-se a biblioteca Datetime.
Uma das coisas mais importantes na manipulação das datas é a separação
em mês, ano e dia ao qual abaixo temos uma sintaxe para separar esses
elementos.
Sintaxe:
df[ 'ANO'] = df[ 'date_given' ].dt.year;
df[ 'MES'] = df[ 'date_given' ].dt.month;
df[ 'DIA'] = df[ 'date_given' ].dt.day;
13 – CONDIÇÕES
12.1 – IF
12.2
14 – GRAFICOS
A biblioteca utilizada no python para se trabalhar com visualização de
dados é o matplotlib. Essa biblioteca é de suma importância para criação de
muitos tipos de gráficos como por exemplo: Linhas, Pizza, Histograma entre
outros.