Análise Pandas – DataFrames

O objetivo deste artigo é apresentar alguns dos principais recursos do Pandas Analysis e ilustrar como eles podem ser usados ​​para analisar dados de várias maneiras.

O Pandas fornece duas estruturas de dados principais para armazenar e manipular dados:

  • Series.
  • Quadro de dados.

Uma série é um objeto semelhante a uma matriz unidimensional que pode armazenar qualquer tipo de dados, como inteiros, strings ou até mesmo outros objetos Python. Cada elemento em uma série tem um rótulo, que é chamado de índice.

Quando falamos de Pandas Analysis, DataFrames são estruturas de dados bidimensionais semelhantes a tabelas com colunas de diferentes tipos de dados. Cada coluna em um DataFrame é uma série e cada linha representa um registro ou uma observação.



Análise de dados do Pandas

Entre os métodos de análise do Pandas, o método head() é um dos métodos mais comumente implementados para fornecer uma visão geral rápida de um DataFrame em relação à análise do Pandas.

Começando no topo da lista, o método head() exibe os cabeçalhos e o número de linhas fornecido.

Para nossos exemplos, trabalharemos com um arquivo conhecido como ' language_data.csv ', que é um arquivo CSV.

Baixar language_data.csv . ou
Abra language_data.csv

Exiba a primeira linha utilizando o método head() do Pandas:

Example: 

1
2
3
4
5
6
import pandas as pds
mrx_df = pds.read_csv('language_data.csv')
print(mrx_df.head(1))
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

No arquivo language_data.csv, recupere as oito primeiras linhas do DataFrame:

Example: 

1
2
3
4
5
6
import pandas as pds
mrx_df = pds.read_csv('language_data.csv')
print(mrx_df.head(8))
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Lembrete : Head() exibe as 5 primeiras linhas quando o número de linhas não é fornecido.

Utilizando o DataFrame, gere as cinco primeiras linhas:

Example: 

1
2
3
4
5
6
import pandas as pds
mrx_df = pds.read_csv('language_data.csv')
print(mrx_df.head())
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Defina o nome do índice como “RANKING”:

Example: 

1
2
3
4
5
6
import pandas as pds
mrx_df = pds.read_csv('language_data.csv').set_index("RANKING")
print(mrx_df.head())
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Também é possível visualizar as últimas linhas do DataFrame usando o método tail() do objeto DataFrame.

No método tail() , começando na parte inferior, os cabeçalhos e um determinado número de linhas são exibidos, começando na parte superior.

Utilizando o DataFrame, exiba as cinco linhas inferiores:

Example: 

1
2
3
4
5
6
import pandas as pds
mrx_df = pds.read_csv('language_data.csv')
print(mrx_df.tail())
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Aplique o método tail() com o método set_index() :

Example: 

1
2
3
4
5
6
import pandas as pds
mrx_df = pds.read_csv('language_data.csv').set_index("RANKING")
print(mrx_df.tail())
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Informações de quadros de dados ()

DataFrames têm um método conhecido como info() , que você pode acessar quando estiver analisando o conjunto de dados com Pandas, que fornece informações adicionais sobre o conjunto de dados.

Você pode exibir as seguintes informações dos dados do arquivo language_data.csv da seguinte maneira:

Example: 

1
2
3
4
5
6
import pandas as pds
mrx_df = pds.read_csv('language_data.csv')
print(mrx_df.info())
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Resultado explicado

De acordo com o resultado do Pandas Analyzing, existem 10 linhas e 3 colunas no conjunto de dados:

RangeIndex: 10 entradas, 0 a 9
colunas de dados (total de 3 colunas):

Aqui está o título de cada coluna, juntamente com o tipo de dados:

# Column Non-Null Count Dtype
— –-–——- ——————- –-–—
0 RANKING 10 non-null int64
1 LANGUAGE 10 non-null object
2 USE 10 non-null object

Primeiro implemente o método info () e mostre os dados das duas últimas linhas:

Example: 

1
2
3
4
5
6
7
import pandas as pds
mrx_df = pds.read_csv('language_data.csv')
print(mrx_df.info())
print(mrx_df.tail(2))
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Exemplo de Explicação

O código acima importa a biblioteca pandas como pds , lê um arquivo CSV chamado language_data.csv e atribui o DataFrame pandas resultante à variável mrx_df .

A instrução print(mrx_df.info()) então imprime informações resumidas sobre o DataFrame, incluindo o número de linhas e colunas, os nomes e tipos de dados de cada coluna e o número de valores não nulos em cada coluna.

A instrução print(mrx_df.tail(2)) imprime as últimas 2 linhas do DataFrame.


Valores Nulos

De acordo com o método info() , também podemos descobrir quantos valores não nulos são encontrados em cada coluna e, com base em nosso conjunto de dados, parece que 10 valores não nulos são encontrados em todas as colunas do arquivo language_data em Análise de Pandas.

Como resultado, isso indica que não há linhas nas três colunas do arquivo language_data,csv que não tenham valores por qualquer motivo.

Um valor vazio, também conhecido como valor nulo, pode causar problemas na análise de dados.

Você também deve levar em conta a eliminação de linhas com valores vazios.

Essencialmente, esta é a primeira etapa do que é conhecido como processo de limpeza de dados.

Nós valorizamos o seu feedback.
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0

Assine a nossa newsletter
Digite seu e-mail para receber um resumo semanal de nossos melhores posts. Saber mais!
ícone