Remover dados duplicados em pandas

Nosso objetivo neste artigo é demonstrar a você como remover duplicatas usando o Pandas e como fazer isso de forma eficiente.

Vamos dedicar um momento para entender o que são dados duplicados antes de começarmos o processo de removê-los.

Em um DataFrame , dados duplicados referem-se à presença dos mesmos dados em mais de uma linha do quadro de dados.



O que são duplicatas em Pandas?

Valores duplicados em pandas referem-se a linhas com valores idênticos em todas as colunas.

Eles podem ocorrer devido a vários motivos, incluindo erros de entrada de dados, fusão de dados ou coleta de dados.

Linhas duplicadas podem distorcer os resultados da análise de dados e, portanto, é importante removê-las antes da análise.


Encontrando Duplicatas

Linhas duplicadas são linhas que foram registradas mais de uma vez.

EMPLOYEE_ID EMPLOYEE_NAME SALARY($)
0 1 Harry 400.0
1 2 Jonathan 300.0
2 3 Miguel 320.0
3 '4' Erin 250.0
4 5 Emma 280.0
5 6 Lia NaN
6 7 Samantha 300.0
7 7 Samantha 300.0
8 8 69 280.0
9 9 Dustin 370.0
10 10 Steve NaN

De acordo com nosso conjunto de dados do arquivo empWrong_data.csv , as linhas 6 e 7 são exatamente iguais.

Existe um método conhecido como duplicado() que pode ser aplicado para identificar registros idênticos.

Para cada linha da tabela, o método doubled() fornece um valor booleano:

Quando uma linha é idêntica a outra no arquivo empWrong_data.csv, exibe True , caso contrário, exibe False :

Example: 

1
2
3
4
5
6
7
8
import pandas as pds
mrx_df = pds.read_csv("empWrong_data.csv")
print(mrx_df.duplicated())
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

No exemplo a seguir, se houver alguma linha repetida, o valor de saída será True , senão False :

Example: 

1
2
3
4
5
6
7
8
import pandas as pds
mrx_df = pds.read_csv("ambiguous_data.csv")
print(mrx_df.duplicated())
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Remover Dados Duplicados

Você pode chamar o método drop_duplicates() se quiser eliminar itens idênticos de uma lista .

De empWrong_data, o arquivo csv elimina a linha repetida:

Example: 

1
2
3
4
5
6
7
8
import pandas as pds
mrx_df = pds.read_csv("empWrong_data.csv")
mrx_df.drop_duplicates(inplace = True)
print(mrx_df)
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Exclua cada uma das entradas idênticas:

Example: 

1
2
3
4
5
6
7
8
import pandas as pds
mrx_df = pds.read_csv("ambiguous_data.csv")
mrx_df.drop_duplicates(inplace = True)
print(mrx_df)
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Lembrete : É importante observar que a opção (inplace = True ) garantirá que o método não forneça um novo DataFrame, mas eliminará todas as cópias do DataFrame original quando o método produzir o resultado.

Exemplo de Explicação

O exemplo acima lê um arquivo CSV chamado “ ambiguous_data.csv ” usando a função read_csv() da biblioteca Pandas e o armazena em uma variável chamada mrx_df .

O método drop_duplicates é então chamado no dataframe mrx_df para remover linhas duplicadas do dataframe, se houver. O argumento inplace=True é usado para modificar o dataframe mrx_df no local, ou seja, o dataframe original é modificado em vez de criar um novo dataframe.

Finalmente, o dataframe mrx_df modificado é impresso no console usando a função de impressão.


Por que remover duplicatas?

A remoção de registros duplicados é uma etapa essencial na limpeza e pré-processamento de dados.

Registros duplicados podem levar a análises e insights incorretos, pois podem distorcer os resultados da análise estatística e dos modelos de aprendizado de máquina.

Além disso, eles podem aumentar o tamanho do conjunto de dados, o que pode retardar o processamento e ocupar espaço de armazenamento desnecessário.

Nós valorizamos o seu feedback.
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0

Assine a nossa newsletter
Digite seu e-mail para receber um resumo semanal de nossos melhores posts. Saber mais!
ícone