Tendência Central vs Dispersão
Nas estatísticas descritivas e inferenciais, vários índices são usados para descrever um conjunto de dados correspondente à sua tendência central, dispersão e assimetria: as três propriedades mais importantes que determinam a forma relativa da distribuição de um conjunto de dados.
O que é tendência central?
Tendência central refere-se e localiza o centro da distribuição de valores. Média, modo e mediana são os índices mais comumente usados na descrição da tendência central de um conjunto de dados. Se um conjunto de dados for simétrico, a mediana e a média do conjunto de dados coincidem entre si.
Dado um conjunto de dados, a média é calculada pegando a soma de todos os valores dos dados e depois dividindo-o pelo número de dados. Por exemplo, os pesos de 10 pessoas (em quilogramas) são medidos em 70, 62, 65, 72, 80, 70, 63, 72, 77 e 79. Em seguida, o peso médio das dez pessoas (em quilogramas) pode ser calculado da seguinte forma. A soma dos pesos é 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Média = (soma) / (número de dados) = 710/10 = 71 (em quilogramas). Entende-se que os valores discrepantes (pontos de dados que se desviam da tendência normal) tendem a afetar a média. Assim, na presença de discrepantes, a média por si só não dará uma imagem correta sobre o centro do conjunto de dados.
A mediana é o ponto de dados encontrado no meio exato do conjunto de dados. Uma maneira de calcular a mediana é ordenar os pontos de dados em ordem crescente e localizá-los no meio. Por exemplo, se ordenado uma vez, o conjunto de dados anterior se parece com 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Portanto, (70 + 72) / 2 = 71 está no meio. A partir disso, percebe-se que a mediana não precisa estar no conjunto de dados. A mediana não é afetada pela presença dos discrepantes. Portanto, a mediana servirá como uma melhor medida da tendência central na presença de discrepantes.
O modo é o valor que ocorre com mais frequência no conjunto de dados. No exemplo anterior, os valores 70 e 72 ocorrem duas vezes e, portanto, ambos são modos. Isso mostra que, em algumas distribuições, há mais de um valor modal. Se houver apenas um modo, o conjunto de dados é considerado unimodal; nesse caso, o conjunto de dados é bimodal.
O que é dispersão?
Dispersão é a quantidade de propagação de dados sobre o centro da distribuição. Faixa e desvio padrão são as medidas de dispersão mais comumente usadas.
O intervalo é simplesmente o valor mais alto menos o valor mais baixo. No exemplo anterior, o valor mais alto é 80 e o valor mais baixo é 62, portanto, o intervalo é 80-62 = 18. Mas o intervalo não fornece uma imagem suficiente sobre a dispersão.
Para calcular o desvio padrão, primeiro os desvios dos valores dos dados da média são calculados. A média quadrática da raiz dos desvios é chamada de desvio padrão. No exemplo anterior, os respectivos desvios da média são (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 e (79 - 71) = 8. A soma de quadrados do desvio é (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. O desvio padrão é √ (366/10) = 6,05 (em quilogramas). A menos que o conjunto de dados seja muito distorcido, disso, pode-se concluir que a maioria dos dados está no intervalo 71 ± 6,05, e é de fato esse exemplo específico.
Qual é a diferença entre tendência central e dispersão? • Tendência central refere-se e localiza o centro da distribuição de valores • Dispersão é a quantidade de propagação de dados sobre o centro de um conjunto de dados..
|