Desvio padrão e variação são medidas estatísticas de dispersão de
A fórmula para desvio padrão e variância é frequentemente expressa usando:
A variação de um conjunto de n valores igualmente prováveis podem ser escritos como:
O desvio padrão é a raiz quadrada da variação:
Fórmulas com letras gregas têm uma aparência assustadora, mas isso é menos complicado do que parece. Para colocá-lo em etapas simples:
Isso dá a variação. Pegue a raiz quadrada da variância para encontrar o desvio padrão.
Este excelente vídeo da Khan Academy explica os conceitos de variação e desvio padrão:
Digamos que um conjunto de dados inclua a altura de seis dentes-de-leão: 3 polegadas, 4 polegadas, 5 polegadas, 4 polegadas, 11 polegadas e 6 polegadas.
Primeiro, encontre a média dos pontos de dados: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Portanto, a altura média é de 5,5 polegadas. Agora precisamos dos desvios, para encontrar a diferença de cada planta em relação à média: -2,5, -1,5, -,5, -1,5, 5,5, 1,5
Agora calcule o quadrado de cada desvio e encontre a soma: 6,25 + 2,25 + 0,25 + 2,25 + 30,25 + 2,25 = 43,5
Agora divida a soma dos quadrados pelo número de pontos de dados, neste caso plantas: 43,5 / 6 = 7,25
Portanto, a variação desse conjunto de dados é 7,25, que é um número bastante arbitrário. Para convertê-lo em uma medida do mundo real, use a raiz quadrada de 7,25 para encontrar o desvio padrão em polegadas.
O desvio padrão é de cerca de 2,69 polegadas. Isso significa que, para a amostra, qualquer dente-de-leão a uma distância de 2,69 polegadas da média (5,5 polegadas) é 'normal'.
Os desvios são elevados ao quadrado para impedir que valores negativos (desvios abaixo da média) cancelem os valores positivos. Isso funciona porque um número negativo ao quadrado se torna um valor positivo. Se você tiver um conjunto de dados simples com desvios da média de +5, +2, -1 e -6, a soma dos desvios será zero se os valores não forem ao quadrado (ou seja, 5 + 2 - 1 - 6 = 0).
A variação é expressa como uma dispersão matemática. Como é um número arbitrário em relação às medições originais do conjunto de dados, é difícil visualizar e aplicar no sentido do mundo real. Encontrar a variação é geralmente apenas a etapa final antes de encontrar o desvio padrão. Às vezes, os valores de variação são usados em fórmulas financeiras e estatísticas.
O desvio padrão, expresso nas unidades originais do conjunto de dados, é muito mais intuitivo e mais próximo dos valores do conjunto de dados original. É usado com mais frequência para analisar amostras demográficas ou populacionais para entender o que é normal na população.
Em uma distribuição normal, cerca de 68% da população (ou valores) cai dentro de 1 desvio padrão (1σ) da média e cerca de 94% cai dentro de 2σ. Valores que diferem da média em 1,7σ ou mais são geralmente considerados outliers.
Na prática, sistemas de qualidade como o Six Sigma tentam reduzir a taxa de erros, para que os erros se tornem extremos. O termo "processo seis sigma" deriva da noção de que se houver seis desvios padrão entre a média do processo e o limite de especificação mais próximo, praticamente nenhum item deixará de atender às especificações..[1]
Em aplicações do mundo real, os conjuntos de dados usados geralmente representam amostras populacionais, em vez de populações inteiras. Uma fórmula levemente modificada é usada para tirar conclusões de toda a população de uma amostra parcial.
Um 'desvio padrão da amostra' é usado se tudo o que você tem é uma amostra, mas você deseja fazer uma declaração sobre o desvio padrão da população a partir do qual a amostra é retirada
A única maneira pela qual a fórmula de desvio padrão da amostra difere da fórmula de desvio padrão é o "-1" no denominador.
Usando o exemplo de dente-de-leão, essa fórmula seria necessária se amostrássemos apenas 6 dentes-de-leão, mas desejássemos usar essa amostra para indicar o desvio padrão para todo o campo com centenas de dentes-de-leão.
A soma dos quadrados agora seria dividida por 5 em vez de 6 (n - 1), o que fornece uma variação de 8,7 (em vez de 7,25) e um desvio padrão de amostra de 2,95 polegadas, em vez de 2,69 polegadas para o desvio padrão original. Essa alteração é usada para encontrar uma margem de erro em uma amostra (9% neste caso).