Análise Pandas – DataFrames
O objetivo deste artigo é apresentar alguns dos principais recursos do Pandas Analysis e ilustrar como eles podem ser usados para analisar dados de várias maneiras.
O Pandas fornece duas estruturas de dados principais para armazenar e manipular dados:
- Series.
- Quadro de dados.
Uma série é um objeto semelhante a uma matriz unidimensional que pode armazenar qualquer tipo de dados, como inteiros, strings ou até mesmo outros objetos Python. Cada elemento em uma série tem um rótulo, que é chamado de índice.
Quando falamos de Pandas Analysis, DataFrames são estruturas de dados bidimensionais semelhantes a tabelas com colunas de diferentes tipos de dados. Cada coluna em um DataFrame é uma série e cada linha representa um registro ou uma observação.
Análise de dados do Pandas
Entre os métodos de análise do Pandas, o método head() é um dos métodos mais comumente implementados para fornecer uma visão geral rápida de um DataFrame em relação à análise do Pandas.
Começando no topo da lista, o método head() exibe os cabeçalhos e o número de linhas fornecido.
Para nossos exemplos, trabalharemos com um arquivo conhecido como ' language_data.csv ', que é um arquivo CSV.
Baixar language_data.csv . ou
Abra language_data.csv
Exiba a primeira linha utilizando o método head() do Pandas:
Example:
No arquivo language_data.csv, recupere as oito primeiras linhas do DataFrame:
Example:
Utilizando o DataFrame, gere as cinco primeiras linhas:
Example:
Defina o nome do índice como “RANKING”:
Example:
Também é possível visualizar as últimas linhas do DataFrame usando o método tail() do objeto DataFrame.
No método tail() , começando na parte inferior, os cabeçalhos e um determinado número de linhas são exibidos, começando na parte superior.
Utilizando o DataFrame, exiba as cinco linhas inferiores:
Example:
Aplique o método tail() com o método set_index() :
Example:
Informações de quadros de dados ()
DataFrames têm um método conhecido como info() , que você pode acessar quando estiver analisando o conjunto de dados com Pandas, que fornece informações adicionais sobre o conjunto de dados.
Você pode exibir as seguintes informações dos dados do arquivo language_data.csv da seguinte maneira:
Example:
Resultado explicado
De acordo com o resultado do Pandas Analyzing, existem 10 linhas e 3 colunas no conjunto de dados:
RangeIndex: 10 entradas, 0 a 9
colunas de dados (total de 3 colunas):
Aqui está o título de cada coluna, juntamente com o tipo de dados:
# Column Non-Null Count Dtype
— –-–——- ——————- –-–—
0 RANKING 10 non-null int64
1 LANGUAGE 10 non-null object
2 USE 10 non-null object
Primeiro implemente o método info () e mostre os dados das duas últimas linhas:
Example:
Exemplo de Explicação
O código acima importa a biblioteca pandas como pds , lê um arquivo CSV chamado language_data.csv e atribui o DataFrame pandas resultante à variável mrx_df .
A instrução print(mrx_df.info()) então imprime informações resumidas sobre o DataFrame, incluindo o número de linhas e colunas, os nomes e tipos de dados de cada coluna e o número de valores não nulos em cada coluna.
A instrução print(mrx_df.tail(2)) imprime as últimas 2 linhas do DataFrame.
Valores Nulos
De acordo com o método info() , também podemos descobrir quantos valores não nulos são encontrados em cada coluna e, com base em nosso conjunto de dados, parece que 10 valores não nulos são encontrados em todas as colunas do arquivo language_data em Análise de Pandas.
Como resultado, isso indica que não há linhas nas três colunas do arquivo language_data,csv que não tenham valores por qualquer motivo.
Um valor vazio, também conhecido como valor nulo, pode causar problemas na análise de dados.
Você também deve levar em conta a eliminação de linhas com valores vazios.
Essencialmente, esta é a primeira etapa do que é conhecido como processo de limpeza de dados.