Gráfico de dispersão no aprendizado de máquina Python
Um guia de gráfico de dispersão completo com exemplos é apresentado nesta página em Python ML . Estamos aqui para ajudá-lo a alcançar seus objetivos educacionais.
ScatterPlot – O que é?
Em gráficos de dispersão (também conhecidos como gráficos de dispersão ou gráficos de dispersão), os pontos representam valores numéricos.
Os pontos de dados são representados por pontos nos eixos horizontal e vertical .
Em palavras simples – um gráfico de dispersão descreve os valores do conjunto de dados como pontos.
O gráfico de dispersão é usado para observar relações entre variáveis.
Um gráfico de dispersão mostrando uma amostra de diâmetros e alturas de árvores fictícias é mostrado acima.
Os pontos representam árvores individuais, e o posicionamento horizontal de cada ponto indica o diâmetro (em centímetros) e o posicionamento vertical indica a altura (em metros) de cada árvore.
Usando o módulo Matplotlib , os gráficos de dispersão podem ser desenhados usando duas matrizes do mesmo comprimento, uma para os valores do eixo x e outra para os valores do eixo y:
mrx = [1,3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35]
ample = [100,97,95,93,91,89,87,85,83,81,79,77,75,73,71,69,67,65]
A idade de cada empresa é representada pela matriz mrx .
O desempenho de cada empresa é representado pela ampla matriz .
Imagem de exemplo:
Para desenhar um diagrama de gráfico de dispersão, use o método scatter():
Example
Explicação do exemplo de gráficos de dispersão
Os gráficos de dispersão têm um eixo x que representa anos e um eixo y que indica desempenho .
De acordo com o diagrama acima, a empresa de melhor desempenho tem um ano, enquanto a empresa de baixo desempenho tem 35 anos.
Nossos dados sugerem que quanto mais jovem a empresa, melhor o desempenho, mas isso pode ser uma coincidência, considerando que apenas 18 empresas foram cadastradas.
Distribuições de dados aleatórios
Usando gráficos de dispersão no aprendizado de máquina, milhares ou até milhões de valores podem ser representados em um conjunto de dados.
Pode ser necessário usar valores gerados aleatoriamente ao testar um algoritmo, pois você pode não ter dados do mundo real.
Podemos fazer isso com NumPy, como aprendemos no capítulo anterior.
Como exemplo, vamos criar dois arrays contendo 999 números aleatórios de uma distribuição normal .
Definiremos a média como 2,0 com um desvio padrão de 1,0 para a primeira matriz.
Na segunda matriz, a média será 8,0 e o desvio padrão será 7,0:
Imagem de exemplo:
Aqui está um gráfico de dispersão com 999 pontos:
Example
Distribuições de dados aleatórios explicadas com gráficos de dispersão
O gráfico de dispersão mostra que os pontos estão reunidos em torno dos valores 2 e 8 nos eixos x e y, respectivamente.
A dispersão do eixo y também é mais larga do que a dispersão do eixo x.
Gráficos de dispersão: quando usá-los
Observar e ilustrar as relações entre duas variáveis numéricas é o principal uso dos gráficos de dispersão .
Os gráficos de dispersão não mostram apenas valores individuais, mas também padrões que podem ser vistos quando todos os dados são combinados.
Adicionar uma linha de tendência ao gráfico mostra o melhor ajuste matemático aos dados ao usar um gráfico de dispersão para visualizar uma relação preditiva ou correlacional entre variáveis.