Pandas Introdução
Pandas é o pacote Python mais abrangente disponível para cientistas e analistas de dados atualmente. Embora o aprendizado de máquina e a visualização de dados possam receber toda a atenção, o Python Pandas é a base de muitos projetos.
O que é Pandas?
A biblioteca Python Pandas é usada para trabalhar com conjuntos de dados.
Os dados podem ser analisados, limpos, explorados e manipulados com ele.
Wes McKinney criou o Pandas em 2008 para fazer referência a “ Painel Data ” e “ Python Data Analysis ”.
Por que usar pandas?
Nossos dados podem ser analisados usando Pandas e as estatísticas podem ser aplicadas para tirar conclusões.
Usando o Pandas , você pode tornar os conjuntos de dados desorganizados compreensíveis e relevantes, limpando-os.
A ciência de dados depende muito de dados relevantes.
A ciência de dados aplicada é o estudo da análise, armazenamento e uso de dados com o objetivo de obter informações.
Pandas podem fazer o quê?
Você pode obter informações detalhadas sobre os dados usando o Pandas. Por exemplo:
- Duas ou mais colunas podem ser correlacionadas?
- Qual é o valor médio ?
- Qual é o valor máximo ?
- Qual é o valor mínimo ?
- Qual é a aparência da distribuição de dados em qualquer coluna ?
- Você pode limpar os dados removendo valores ausentes e filtrando linhas ou colunas .
- Matplotlib pode ser usado para visualizar os dados. Gráfico de barras, linhas, histogramas, bolhas e muito mais.
- Coloque os dados transformados e limpos de volta em um CSV ou banco de dados .
Pandas também são capazes de excluir linhas com valores irrelevantes, como NULLs ou linhas vazias. O processo de limpeza de dados é chamado de limpeza de dados.
Para entender seu conjunto de dados , você precisa entender a natureza dele, e o pandas é o ideal para isso.
Onde está a base de código do Pandas?
Quando Wes McKinney trabalhou na AQR Capital Management em 2008, ele inicialmente desenvolveu o Pandas. Ele convenceu o AQR a abrir o código do Pandas. Um segundo funcionário da AQR, Chang She, contribuiu significativamente para a biblioteca em 2012. Os pandas foram atualizados várias vezes ao longo dos anos.
Você pode baixar a versão mais recente do Panda no site oficial .
Este repositório GitHub contém o código-fonte do Pandas .
Instalar Pandas
A instalação do Pandas é extremamente fácil se o Python e o PIP já estiverem instalados. As instruções de instalação do Python podem ser encontradas nas respectivas postagens para Windows , Mac e Linux
Você pode instalá-lo executando o seguinte comando:
pip install pandas
A biblioteca deve ser importada após a instalação do pandas no sistema. Consulte o seguinte.
Importar Pandas
Importe Pandas para seus aplicativos adicionando o comando de importação :
import pandas
OU
import pandas as pd
O Pandas já foi importado e está pronto para ser usado.
Panda como pd - Alias
Um apelido para o Panda é pd . O alias não requer a importação da biblioteca, apenas simplifica o código quando um método ou propriedade é chamado.
Ao importar, use o prefixo as para criar um alias:
Executar
Example
Verifique a versão
O Panda armazena strings de versão sob o atributo de versão.
Executar
Example
Existem dois tipos de estruturas de dados, Series e DataFrames, para manipulação de dados.