Pandas DataFrames

O objetivo deste artigo é explicar o que são Pandas DataFrames , como implementá-los e manipulá-los e algumas operações importantes que eles podem executar.

Pandas DataFrame – o que é?

É importante entender que um Pandas Dataframe é uma estrutura de dados bidimensional, como uma matriz bidimensional ou uma tabela com colunas e linhas como em uma planilha.

Existem várias maneiras de criar um Pandas DataFrame. O método mais comum é passar um dicionário de listas de comprimento igual ou matrizes NumPy como parâmetro de dados para o construtor DataFrame.

Utilizando Pandas, gere um DataFrame employee_detail da seguinte forma:

Example: 

1
2
3
4
5
6
7
8
9
10
11
12
import pandas as pds
employee_detail = {
"ID": [1, 2, 3, 4, 5],
"NAME":
["Harry", "Mike", "Steve", "Jonathan", "Dustin"]
}
#load the above employee_detail data into a DataFrame object as follows:
mrx_df = pds.DataFrame(employee_detail)
print(mrx_df)
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Faça um Pandas student_detail DataFrame chamando a função DataFrame() da seguinte maneira:

Example: 

1
2
3
4
5
6
7
8
9
10
11
12
import pandas as pds
student_detail = {
"NAME": ["Joe", "Kane", "Lia", "Kate", "Tim"],
"AGE":
[19, 20, 19, 21, 20]
}
#load the above student_detail data into a DataFrame object as follows:
mrx_df = pds.DataFrame(student_detail)
print(mrx_df)
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX


Pandas Dataframes - Linha

Os Pandas Dataframes são semelhantes a uma tabela com uma linha e uma coluna, como você pode observar na saída acima.

Uma ou mais linhas podem ser recuperadas pelo Pandas através do atributo loc

Exiba a primeira linha (índice 0) do DataFrame employee_detail:

Example: 

1
2
3
4
5
6
7
8
9
10
11
import pandas as pds
employee_detail = {
"ID": [1, 2, 3, 4, 5],
"NAME":
["Harry", "Mike", "Steve", "Jonathan", "Dustin"]
}
mrx_df = pds.DataFrame(employee_detail)
print(mrx_df.loc[0])
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Mostre os detalhes do quarto aluno índice:

Example: 

1
2
3
4
5
6
7
8
9
10
11
import pandas as pds
student_detail = {
"NAME": ["Joe", "Kane", "Lia", "Kate", "Tim"],
"AGE":
[19, 20, 19, 21, 20]
}
mrx_df = pds.DataFrame(student_detail)
print(mrx_df.loc[4])
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Lembrete : como resultado do exemplo acima, obtemos uma série Pandas.

Recupere os dados dos três primeiros funcionários do conjunto de dados employee_detail:

Example: 

1
2
3
4
5
6
7
8
9
10
11
import pandas as pds
employee_detail = {
"ID": [1, 2, 3, 4, 5],
"NAME":
["Harry", "Mike", "Steve", "Jonathan", "Dustin"]
}
mrx_df = pds.DataFrame(employee_detail)
print(mrx_df.loc[[0,1,2]])
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

A partir do conjunto de dados student_detail, exiba os dados do índice 3 e 4:

Example: 

1
2
3
4
5
6
7
8
9
10
11
import pandas as pds
student_detail = {
"NAME": ["Joe", "Kane", "Lia", "Kate", "Tim"],
"AGE":
[19, 20, 19, 21, 20]
}
mrx_df = pds.DataFrame(student_detail)
print(mrx_df.loc[[3,4]])
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Lembrete : A saída da aplicação de [] é um Pandas DataFrame.

Índices nomeados

Você pode fornecer identidade para seus índices personalizados com o argumento index.

Atribua um nome a uma linha individual fornecendo uma lista de nomes:

Example: 

1
2
3
4
5
6
7
8
9
10
11
import pandas as pds
student_detail = {
"NAME": ["Joe", "Kane", "Lia", "Kate", "Tim"],
"AGE":
[19, 20, 19, 21, 20]
}
mrx_df = pds.DataFrame(student_detail, index = ["101", "102", "103", "104", "105"])
print(mrx_df)
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Personalize os índices do conjunto de dados course_detail:

Example: 

1
2
3
4
5
6
7
8
9
10
import pandas as pds
course_detail = {
"COURSE NAME": ["Data Structures", "Object Oriented Programming", "Database Management", "Artificial Intelligence"],
"CREDIT HOURS": [3, 2, 3, 2]
}
mrx_df = pds.DataFrame(course_detail, index = ["9991", "9992", "9993", "9994"])
print(mrx_df)
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Fazendo referência ao atributo loc , você pode recuperar a(s) linha(s) solicitada(s).

Mostre as informações do aluno índice “102”:

Example: 

1
2
3
4
5
6
7
8
9
10
11
12
import pandas as pds
student_detail = {
"NAME": ["Joe", "Kane", "Lia", "Kate", "Tim"],
"AGE":
[19, 20, 19, 21, 20]
}
mrx_df = pds.DataFrame(student_detail, index = ["101", "102", "103", "104", "105"])
#Access the customized index:
print(mrx_df.loc["102"])
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Do conjunto de dados course_detail, recupere os dados do índice “9991” e “9994”:

Example: 

1
2
3
4
5
6
7
8
9
10
11
import pandas as pds
course_detail = {
"COURSE NAME": ["Data Structures", "Object Oriented Programming", "Database Management", "Artificial Intelligence"],
"CREDIT HOURS": [3, 2, 3, 2]
}
mrx_df = pds.DataFrame(course_detail, index = ["9991", "9992", "9993", "9994"])
#Access the customized indexes:
print(mrx_df.loc[["9991", "9994"]])
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Dados de arquivos em DataFrame

Os Pandas podem carregar conjuntos de dados contidos em arquivos em DataFrames.

Utilizando um arquivo CSV como entrada para um DataFrame, você pode carregar um arquivo de valor separado por vírgula da seguinte maneira:

Example: 

1
2
3
4
5
6
import pandas as pds
mrx_df = pds.read_csv('language_data.csv')
print(mrx_df)
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Defina “RANKING” como um título de índice:

Example: 

1
2
3
4
5
6
import pandas as pds
mrx_df = pds.read_csv('language_data.csv').set_index("RANKING")
print(mrx_df)
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Exemplo de Explicação

O código de exemplo acima lê um arquivo CSV chamado 'language_data.csv' usando a função read_csv() da biblioteca pandas e cria um DataFrame pandas chamado mrx_df . O método set_index() é então usado para definir a coluna ' RANKING ' como o índice do DataFrame.

O DataFrame mrx_df resultante é então impresso no console usando a função print() . Este DataFrame conterá todos os dados do arquivo CSV, mas com a coluna 'RANKING' usada como índice.

Ao definir a coluna 'RANKING' como o índice, o DataFrame pode ser consultado de maneira fácil e eficiente com base na classificação de diferentes linguagens de programação. Isso facilita a realização de análises e visualizações dos dados.

Nós valorizamos o seu feedback.
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0

Assine a nossa newsletter
Digite seu e-mail para receber um resumo semanal de nossos melhores posts. Saber mais!
ícone