- InfinitePy Newsletter 🇧🇷
- Posts
- Como excluir outliers no Pandas usando o método .clip()
Como excluir outliers no Pandas usando o método .clip()
O método .clip() do Pandas é usado para limitar os valores em um DataFrame ou uma Série a um intervalo. Ele substitui os valores que estão fora do intervalo especificado pelos limites (inferior e superior).
Sintaxe
DataFrame.clip(lower=None, upper=None, axis=None, inplace=False, args, *kwargs)
lower: Valor mínimo. Todos os valores menores que este serão substituídos por este valor.
upper: Valor máximo. Todos os valores maiores que este serão substituídos por este valor.
axis: Se None, aplica aos valores individuais. Pode ser {0 ou 'index', 1 ou 'columns'}.
inplace: Se True, realiza a operação no próprio DataFrame, substituindo os valores. O padrão é False.
Exemplo Prático
import pandas as pd # Suponha que temos uma série de dados dados = pd.Series([10, 12, 14, 100, 15, 13, 18, 110, 14, 16]) # Definimos os limites inferior e superior limite_inferior = 10 limite_superior = 20 # Usamos o método .clip() para limitar os valores aos limites definidos dados_sem_outliers = dados.clip(lower=limite_inferior, upper=limite_superior) print("Dados originais:") print(dados.tolist()) print("\nDados após remover outliers:") print(dados_sem_outliers.tolist())
Em resumo, este código usa pandas para limitar os valores em uma série de dados para um intervalo especificado, limitando efetivamente os valores discrepantes a um intervalo aceitável definido.