Pandas CSV – Ler e Escrever

Um dos principais recursos do Pandas é sua capacidade de ler e gravar vários formatos de arquivo. Nosso objetivo neste artigo, vamos nos concentrar nos arquivos Pandas CSV (Valores Separados por Vírgula) Leitura e Gravação.

veremos as funções Pandas csv (read_csv() e to_csv) e seus vários parâmetros e opções em detalhes.



O que é um arquivo CSV?

CSV significa Valores separados por vírgula. É um formato de arquivo usado para armazenar dados tabulares em texto simples.

Cada linha do arquivo representa uma linha de dados e cada valor em uma linha é separado por uma vírgula.

Os arquivos CSV são amplamente usados ​​para trocar dados entre diferentes aplicativos de software, especialmente ao trabalhar com programas de planilhas como o Microsoft Excel ou o Planilhas Google .


Benefícios do Pandas CSV

Os benefícios de usar o Pandas para ler e gravar arquivos CSV são numerosos.

Alguns dos principais benefícios incluem:

Fácil de usar

O Pandas fornece uma interface simples e intuitiva para leitura e gravação de dados em arquivos CSV. Com apenas algumas linhas de código, você pode escrever ou ler dados de um dataframe do Pandas para um arquivo CSV.

Flexibilidade

Ele fornece uma ampla gama de opções para personalizar o formato de saída dos arquivos CSV.

Você pode controlar o caractere delimitador, o comportamento de citação e outras opções de formatação para garantir que o arquivo CSV de saída atenda aos seus requisitos.

Tratamento eficiente de dados

O Pandas CSV foi projetado para lidar com grandes conjuntos de dados com eficiência.

Ele usa estruturas de dados e algoritmos otimizados para fornecer manipulação de dados rápida e eficiente, o que é particularmente importante ao ler e gravar grandes arquivos CSV.

Integração com outras bibliotecas Python

O Pandas integra-se perfeitamente com outras bibliotecas Python populares, como NumPy e Matplotlib .

Isso torna possível usar o Pandas como parte de um fluxo de trabalho de análise de dados maior e visualizar e comunicar suas descobertas usando o Matplotlib.

Suporte para transformação de dados

O Pandas fornece uma ampla variedade de recursos de transformação de dados que podem ser usados ​​para preparar dados para saída em um arquivo CSV.

Por exemplo, você pode filtrar, classificar e agregar dados em um dataframe do Pandas antes de gravá-lo em um arquivo CSV.


Pandas lê arquivos CSV

O Pandas fornece uma maneira simples e eficiente de ler arquivos CSV em um objeto DataFrame.

Existem muitas maneiras de armazenar grandes conjuntos de dados no Pandas CSV, mas uma das maneiras mais convenientes é utilizar arquivos CSV para armazenar grandes conjuntos de dados.

É amplamente conhecido que os arquivos CSV fornecem texto simples e que podem ser lidos por todos, até mesmo pelos Pandas, pois são formatos comumente conhecidos.

Aqui está a sintaxe básica para ler um arquivo CSV com Pandas:

import pandas as pd
df = pd.read_csv('language_data.csv')

Na sintaxe acima, importamos a biblioteca Pandas e usamos a função read_csv() para ler um arquivo CSV chamado 'language_data.csv' em um objeto DataFrame chamado df . O Pandas infere automaticamente os tipos de coluna dos dados no arquivo CSV, o que pode ser útil ao lidar com grandes conjuntos de dados.

Por padrão, o Pandas assume que a primeira linha do arquivo CSV contém nomes de colunas. Se não for esse o caso, passar header=None impedirá que o Pandas use a primeira linha como nomes de colunas.

Se seu arquivo CSV não tiver uma linha de cabeçalho, você poderá especificá-la explicitamente passando o parâmetro header=None para a função read_csv():

import pandas as pd
df = pd.read_csv('language_data.csv', header=None)

O Pandas fornece várias opções para personalizar a maneira como os arquivos CSV são lidos.

Aqui estão alguns dos parâmetros mais comuns:

Parâmetros Visão geral
setembro Especifica o delimitador usado para separar valores no arquivo CSV. O valor padrão é ','.
delimitador Um pseudônimo para set.
cabeçalho Especifica qual linha do arquivo CSV deve ser usada como nomes de coluna. O valor padrão é 0, o que significa que a primeira linha é usada como nomes de coluna.
nomes Especifica uma lista de nomes de coluna a serem usados ​​em vez dos nomes no arquivo CSV. Se header=None , este parâmetro é obrigatório.
index_col Especifica quais colunas usar como o índice DataFrame. Por padrão, nenhuma coluna é usada como índice.
dtype Especifica os tipos de dados das colunas. Esse parâmetro usa um dicionário de nomes de colunas e tipos de dados.
saltos Especifica o número de linhas a serem ignoradas no início do arquivo CSV.
na_values Especifica uma lista de valores para tratar como valores omissos.
parse_dates Especifica uma lista de colunas para analisar como datas.

Para nossos exemplos, trabalharemos com um arquivo conhecido como 'language_data.csv', que é um arquivo CSV.

Baixar language_data.csv .

ou
Abra language_data.csv

Em um DataFrame, carregue o arquivo language_data.csv:

Example: 

1
2
3
4
5
6
import pandas as pds
mrx_df = pds.read_csv('language_data.csv')
print(mrx_df.to_string())
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Implemente a função read_csv() e defina o título do índice:

Example: 

1
2
3
4
5
6
import pandas as pds
mrx_df = pds.read_csv('language_data.csv').set_index("RANKING")
print(mrx_df.to_string())
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Diretrizes : Para exibir o DataFrame completo, simplesmente chame to_string() .

É por padrão que se você gerar um DataFrame, receberá apenas as 5 primeiras linhas, assim como as 5 últimas linhas:

Minimize o tamanho do arquivo CSV da seguinte maneira:

Example: 

1
2
3
4
5
6
import pandas as pds
mrx_df = pds.read_csv('language_data.csv')
print(mrx_df)
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Atribua o título de index = “RANKING”, então concisa o arquivo language_data.csv:

Example: 

1
2
3
4
5
6
import pandas as pds
mrx_df = pds.read_csv('language_data.csv').set_index("RANKING")
print(mrx_df)
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Exemplo de Explicação

O exemplo acima lê um arquivo CSV chamado 'language_data.csv' usando a função read_csv() da biblioteca pandas e armazena o DataFrame resultante em uma variável chamada mrx_df . O método set_index() é então usado para definir a coluna 'RANKING' como o índice do DataFrame.

A função read_csv() tem vários parâmetros opcionais que podem ser usados ​​para personalizar a maneira como o arquivo CSV é lido, como especificar o delimitador usado no arquivo, os nomes das colunas ou os tipos de dados das colunas. Neste caso, a função é chamada sem parâmetros, então ela usará as configurações padrão.

O método set_index() é usado para definir a coluna 'RANKING' como o índice do DataFrame. Isso significa que a coluna 'RANKING' será usada como rótulos de linha para o DataFrame, e o DataFrame pode ser consultado de maneira fácil e eficiente com base na classificação de diferentes linguagens de programação.


Escrevendo arquivos CSV com Pandas

Para escrever um arquivo CSV com Pandas, podemos usar a função to_csv .

Esta função recebe um nome de arquivo como entrada e grava o conteúdo de um dataframe do Pandas em um arquivo CSV.

Aqui está um exemplo de como usar “to_csv” para gravar um dataframe do Pandas em um arquivo CSV:

Example: 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
import pandas as pd
# Create a dataframe
data = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35]})
# Write the dataframe to a CSV file
data.to_csv('data.csv', index=False)
# Load the CSV file back into a dataframe
data2 = pd.read_csv('data.csv')
# Display the dataframe
print(data2.head())
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

No exemplo acima, criamos um dataframe do Pandas contendo alguns dados de amostra.

Em seguida, usamos a função to_csv para gravar o dataframe em um arquivo CSV chamado data.csv . Definimos o parâmetro index como False para evitar gravar o índice de linha no arquivo CSV.

Em seguida, carregamos o arquivo CSV de volta em um novo dataframe usando a função “read_csv” e exibimos as primeiras linhas do dataframe resultante usando a função head .

O arquivo CSV resultante conterá o conteúdo do dataframe do Pandas, com cada linha representando uma linha no dataframe e cada coluna representando uma coluna no dataframe.

Nós valorizamos o seu feedback.
+1
1
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0

Assine a nossa newsletter
Digite seu e-mail para receber um resumo semanal de nossos melhores posts. Saber mais!
ícone