Como excluir outliers no Pandas usando o método .clip()

O método .clip() do Pandas é usado para limitar os valores em um DataFrame ou uma Série a um intervalo. Ele substitui os valores que estão fora do intervalo especificado pelos limites (inferior e superior).

Sintaxe
DataFrame.clip(lower=None, upper=None, axis=None, inplace=False, args, *kwargs)
  • lower: Valor mínimo. Todos os valores menores que este serão substituídos por este valor.

  • upper: Valor máximo. Todos os valores maiores que este serão substituídos por este valor.

  • axis: Se None, aplica aos valores individuais. Pode ser {0 ou 'index', 1 ou 'columns'}.

  • inplace: Se True, realiza a operação no próprio DataFrame, substituindo os valores. O padrão é False.

Exemplo Prático
import pandas as pd

# Suponha que temos uma série de dados
dados = pd.Series([10, 12, 14, 100, 15, 13, 18, 110, 14, 16])

# Definimos os limites inferior e superior
limite_inferior = 10
limite_superior = 20

# Usamos o método .clip() para limitar os valores aos limites definidos
dados_sem_outliers = dados.clip(lower=limite_inferior, upper=limite_superior)

print("Dados originais:")
print(dados.tolist())

print("\nDados após remover outliers:")
print(dados_sem_outliers.tolist())

Em resumo, este código usa pandas para limitar os valores em uma série de dados para um intervalo especificado, limitando efetivamente os valores discrepantes a um intervalo aceitável definido.