Pandas CSV – Ler e Escrever
Um dos principais recursos do Pandas é sua capacidade de ler e gravar vários formatos de arquivo. Nosso objetivo neste artigo, vamos nos concentrar nos arquivos Pandas CSV (Valores Separados por Vírgula) Leitura e Gravação.
veremos as funções Pandas csv (read_csv() e to_csv) e seus vários parâmetros e opções em detalhes.
O que é um arquivo CSV?
CSV significa Valores separados por vírgula. É um formato de arquivo usado para armazenar dados tabulares em texto simples.
Cada linha do arquivo representa uma linha de dados e cada valor em uma linha é separado por uma vírgula.
Os arquivos CSV são amplamente usados para trocar dados entre diferentes aplicativos de software, especialmente ao trabalhar com programas de planilhas como o Microsoft Excel ou o Planilhas Google .
Benefícios do Pandas CSV
Os benefícios de usar o Pandas para ler e gravar arquivos CSV são numerosos.
Alguns dos principais benefícios incluem:
Fácil de usar
O Pandas fornece uma interface simples e intuitiva para leitura e gravação de dados em arquivos CSV. Com apenas algumas linhas de código, você pode escrever ou ler dados de um dataframe do Pandas para um arquivo CSV.
Flexibilidade
Ele fornece uma ampla gama de opções para personalizar o formato de saída dos arquivos CSV.
Você pode controlar o caractere delimitador, o comportamento de citação e outras opções de formatação para garantir que o arquivo CSV de saída atenda aos seus requisitos.
Tratamento eficiente de dados
O Pandas CSV foi projetado para lidar com grandes conjuntos de dados com eficiência.
Ele usa estruturas de dados e algoritmos otimizados para fornecer manipulação de dados rápida e eficiente, o que é particularmente importante ao ler e gravar grandes arquivos CSV.
Integração com outras bibliotecas Python
O Pandas integra-se perfeitamente com outras bibliotecas Python populares, como NumPy e Matplotlib .
Isso torna possível usar o Pandas como parte de um fluxo de trabalho de análise de dados maior e visualizar e comunicar suas descobertas usando o Matplotlib.
Suporte para transformação de dados
O Pandas fornece uma ampla variedade de recursos de transformação de dados que podem ser usados para preparar dados para saída em um arquivo CSV.
Por exemplo, você pode filtrar, classificar e agregar dados em um dataframe do Pandas antes de gravá-lo em um arquivo CSV.
Pandas lê arquivos CSV
O Pandas fornece uma maneira simples e eficiente de ler arquivos CSV em um objeto DataFrame.
Existem muitas maneiras de armazenar grandes conjuntos de dados no Pandas CSV, mas uma das maneiras mais convenientes é utilizar arquivos CSV para armazenar grandes conjuntos de dados.
É amplamente conhecido que os arquivos CSV fornecem texto simples e que podem ser lidos por todos, até mesmo pelos Pandas, pois são formatos comumente conhecidos.
Aqui está a sintaxe básica para ler um arquivo CSV com Pandas:
import pandas as pd df = pd.read_csv('language_data.csv')
Na sintaxe acima, importamos a biblioteca Pandas e usamos a função read_csv() para ler um arquivo CSV chamado 'language_data.csv' em um objeto DataFrame chamado df . O Pandas infere automaticamente os tipos de coluna dos dados no arquivo CSV, o que pode ser útil ao lidar com grandes conjuntos de dados.
Se seu arquivo CSV não tiver uma linha de cabeçalho, você poderá especificá-la explicitamente passando o parâmetro header=None para a função read_csv():
import pandas as pd df = pd.read_csv('language_data.csv', header=None)
O Pandas fornece várias opções para personalizar a maneira como os arquivos CSV são lidos.
Aqui estão alguns dos parâmetros mais comuns:
Parâmetros | Visão geral |
setembro | Especifica o delimitador usado para separar valores no arquivo CSV. O valor padrão é ','. |
delimitador | Um pseudônimo para set. |
cabeçalho | Especifica qual linha do arquivo CSV deve ser usada como nomes de coluna. O valor padrão é 0, o que significa que a primeira linha é usada como nomes de coluna. |
nomes | Especifica uma lista de nomes de coluna a serem usados em vez dos nomes no arquivo CSV. Se header=None , este parâmetro é obrigatório. |
index_col | Especifica quais colunas usar como o índice DataFrame. Por padrão, nenhuma coluna é usada como índice. |
dtype | Especifica os tipos de dados das colunas. Esse parâmetro usa um dicionário de nomes de colunas e tipos de dados. |
saltos | Especifica o número de linhas a serem ignoradas no início do arquivo CSV. |
na_values | Especifica uma lista de valores para tratar como valores omissos. |
parse_dates | Especifica uma lista de colunas para analisar como datas. |
Para nossos exemplos, trabalharemos com um arquivo conhecido como 'language_data.csv', que é um arquivo CSV.
Em um DataFrame, carregue o arquivo language_data.csv:
Example:
Implemente a função read_csv() e defina o título do índice:
Example:
É por padrão que se você gerar um DataFrame, receberá apenas as 5 primeiras linhas, assim como as 5 últimas linhas:
Minimize o tamanho do arquivo CSV da seguinte maneira:
Example:
Atribua o título de index = “RANKING”, então concisa o arquivo language_data.csv:
Example:
Exemplo de Explicação
O exemplo acima lê um arquivo CSV chamado 'language_data.csv' usando a função read_csv() da biblioteca pandas e armazena o DataFrame resultante em uma variável chamada mrx_df . O método set_index() é então usado para definir a coluna 'RANKING' como o índice do DataFrame.
A função read_csv() tem vários parâmetros opcionais que podem ser usados para personalizar a maneira como o arquivo CSV é lido, como especificar o delimitador usado no arquivo, os nomes das colunas ou os tipos de dados das colunas. Neste caso, a função é chamada sem parâmetros, então ela usará as configurações padrão.
O método set_index() é usado para definir a coluna 'RANKING' como o índice do DataFrame. Isso significa que a coluna 'RANKING' será usada como rótulos de linha para o DataFrame, e o DataFrame pode ser consultado de maneira fácil e eficiente com base na classificação de diferentes linguagens de programação.
Escrevendo arquivos CSV com Pandas
Para escrever um arquivo CSV com Pandas, podemos usar a função to_csv .
Esta função recebe um nome de arquivo como entrada e grava o conteúdo de um dataframe do Pandas em um arquivo CSV.
Aqui está um exemplo de como usar “to_csv” para gravar um dataframe do Pandas em um arquivo CSV:
Example:
No exemplo acima, criamos um dataframe do Pandas contendo alguns dados de amostra.
Em seguida, usamos a função to_csv para gravar o dataframe em um arquivo CSV chamado data.csv . Definimos o parâmetro index como False para evitar gravar o índice de linha no arquivo CSV.
Em seguida, carregamos o arquivo CSV de volta em um novo dataframe usando a função “read_csv” e exibimos as primeiras linhas do dataframe resultante usando a função head .
O arquivo CSV resultante conterá o conteúdo do dataframe do Pandas, com cada linha representando uma linha no dataframe e cada coluna representando uma coluna no dataframe.