Remover dados duplicados em pandas
Nosso objetivo neste artigo é demonstrar a você como remover duplicatas usando o Pandas e como fazer isso de forma eficiente.
Vamos dedicar um momento para entender o que são dados duplicados antes de começarmos o processo de removê-los.
Em um DataFrame , dados duplicados referem-se à presença dos mesmos dados em mais de uma linha do quadro de dados.
O que são duplicatas em Pandas?
Valores duplicados em pandas referem-se a linhas com valores idênticos em todas as colunas.
Eles podem ocorrer devido a vários motivos, incluindo erros de entrada de dados, fusão de dados ou coleta de dados.
Linhas duplicadas podem distorcer os resultados da análise de dados e, portanto, é importante removê-las antes da análise.
Encontrando Duplicatas
Linhas duplicadas são linhas que foram registradas mais de uma vez.
EMPLOYEE_ID EMPLOYEE_NAME SALARY($) 0 1 Harry 400.0 1 2 Jonathan 300.0 2 3 Miguel 320.0 3 '4' Erin 250.0 4 5 Emma 280.0 5 6 Lia NaN 6 7 Samantha 300.0 7 7 Samantha 300.0 8 8 69 280.0 9 9 Dustin 370.0 10 10 Steve NaN
De acordo com nosso conjunto de dados do arquivo empWrong_data.csv , as linhas 6 e 7 são exatamente iguais.
Existe um método conhecido como duplicado() que pode ser aplicado para identificar registros idênticos.
Para cada linha da tabela, o método doubled() fornece um valor booleano:
Quando uma linha é idêntica a outra no arquivo empWrong_data.csv, exibe True , caso contrário, exibe False :
Example:
No exemplo a seguir, se houver alguma linha repetida, o valor de saída será True , senão False :
Example:
Remover Dados Duplicados
Você pode chamar o método drop_duplicates() se quiser eliminar itens idênticos de uma lista .
De empWrong_data, o arquivo csv elimina a linha repetida:
Example:
Exclua cada uma das entradas idênticas:
Example:
Exemplo de Explicação
O exemplo acima lê um arquivo CSV chamado “ ambiguous_data.csv ” usando a função read_csv() da biblioteca Pandas e o armazena em uma variável chamada mrx_df .
O método drop_duplicates é então chamado no dataframe mrx_df para remover linhas duplicadas do dataframe, se houver. O argumento inplace=True é usado para modificar o dataframe mrx_df no local, ou seja, o dataframe original é modificado em vez de criar um novo dataframe.
Finalmente, o dataframe mrx_df modificado é impresso no console usando a função de impressão.
Por que remover duplicatas?
A remoção de registros duplicados é uma etapa essencial na limpeza e pré-processamento de dados.
Registros duplicados podem levar a análises e insights incorretos, pois podem distorcer os resultados da análise estatística e dos modelos de aprendizado de máquina.
Além disso, eles podem aumentar o tamanho do conjunto de dados, o que pode retardar o processamento e ocupar espaço de armazenamento desnecessário.