Correlações de dados do Pandas

O objetivo deste artigo é explorar os fundamentos das correlações do Pandas e como os dados podem ser calculados e exibidos utilizando o Pandas.

Uma correlação entre duas variáveis ​​é uma medida estatística que descreve como essas variáveis ​​estão relacionadas entre si.

É freqüentemente aplicado na análise de dados para entender como as variáveis ​​estão relacionadas umas com as outras.



Encontrar Relacionamento

As correlações do Pandas são um dos recursos mais poderosos do módulo Pandas, e um de seus recursos mais impressionantes é o método corr() .

Este método calcula a correlação entre cada coluna em seu conjunto de dados utilizando a função corr().

Por exemplo, estaremos trabalhando com um arquivo conhecido como ' language_data.csv ' que é um arquivo CSV.

Baixe empWrong_data.csv . ou
Abra empWrong_data.csv

Example: 

1
2
3
4
5
6
7
8
import pandas as pds
mrx_df = pds.read_csv('empWrong_data.csv')
print(mrx_df.corr())
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Lembrete : É importante observar que o método corr() não considera colunas “não numéricas” ao calcular as correlações do Pandas.

Exemplo de Explicação

Em primeiro lugar, a biblioteca Pandas é importada usando a abreviação ' pds '. Em seguida, um arquivo CSV chamado ' empWrong_data.csv ' é lido usando a função read_csv() da biblioteca Pandas e armazenado em um objeto Pandas DataFrame chamado ' mrx_df '.

Em seguida, a função corr() do Pandas DataFrame é aplicada no objeto 'mrx_df' para calcular os coeficientes de correlação de Pearson aos pares entre todos os pares de variáveis ​​no DataFrame. Os coeficientes de correlação são calculados usando os valores de parâmetro padrão para a função corr(). A saída dessa função é uma matriz de correlação que exibe os coeficientes de correlação entre cada par de variáveis ​​no DataFrame.

Finalmente, a matriz de correlação é impressa usando a função print() . A saída do código será uma tabela de coeficientes de correlação para todos os pares de variáveis ​​no DataFrame 'mrx_df'.

Existe um intervalo de números entre -1 e 1 .

O valor 1 indica uma relação de 1 para 1 (uma correlação perfeita) e, para esse conjunto de dados, cada vez que o valor da primeira coluna aumentava, o outro valor também aumentava.

  • Uma relação entre 0,9 e 1 também é considerada favorável, pois se você aumentar um valor, provavelmente o outro também aumentará.
  • Uma relação de -0,9 é tão boa quanto uma de 0,9, mas se um valor aumentar, o outro provavelmente diminuirá.
  • Uma relação de 0,2 significa que o aumento de um valor não significa necessariamente que o outro o seguirá.

A tabela a seguir mostra como interpretar os coeficientes de correlação:

Coeficiente de correlação Força do Relacionamento
-1,0 a -0,7 Negativo forte
-0,7 a -0,3 Negativo moderado
-0,3 a -0,1 negativo fraco
-0,1 a 0,1 Nenhuma correlação
0,1 a 0,3 Positivo fraco
0,3 a 0,7 Positivo moderado
0,7 a 1,0 forte positivo

Correlações de Pandas - Especifique uma

Acredito que seja razoável concluir que, se você estiver comparando as correlações do Pandas com quaisquer outras correlações, precisará ter uma correlação de pelo menos 0,6 (ou -0,6 ) para considerá-la uma boa correlação de acordo com as correlações do Pandas.

Correlação Perfeita

Cada coluna nas correlações do Pandas sempre tem uma correlação perfeita consigo mesma, então é óbvio que SALARY($)  e SALARY($)  produzem o número 1.000000.

Boa correlação

No Pandas , um coeficiente de correlação de 0,9 representa uma relação positiva muito boa entre duas variáveis.

Em outras palavras, existe um alto grau de correlação entre as duas variáveis. 0.9 sugere que, à medida que uma variável aumenta, a outra variável também aumentará de maneira altamente previsível como resultado do aumento da primeira variável .

Correlação Ruim

De acordo com o Pandas, um coeficiente de correlação de 0,009 indica que existe uma relação muito fraca ou insignificante entre duas variáveis.

Em outras palavras, significa que há muito pouca ou nenhuma correlação entre as duas variáveis ​​que estão sendo analisadas.

O valor de 0,009 sugere que pode haver um pequeno aumento na outra variável à medida que uma variável aumenta, mas a relação pode não ser estatisticamente significativa ou significativa no sentido prático .

Nós valorizamos o seu feedback.
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0

Assine a nossa newsletter
Digite seu e-mail para receber um resumo semanal de nossos melhores posts. Saber mais!
ícone