Variáveis Aleatórias: o que são, quais são as categorias e o que é medida de posição?
As variáveis aleatórias são muito importantes e aparecem em diversos contextos, principalmente no mundo da estatística e da matemática. Confira agora!
O que é uma Variável Aleatória?
Uma variável aleatória é uma medida de interesse em análise estatística que assume valores em um possível conjunto de observações.
Achou confuso? Imagina que eu peça para você jogar um dado comum de 6 lados e me dizer qual o valor da face voltada para cima, nós não sabemos que valor vai aparecer, porém nós sabemos quais são as possibilidades de valores que são de 1 a 6.
Esse valor observado é chamado de variável aleatória.
Para facilitar o entendimento, eu trouxe mais alguns exemplos:
● Altura de uma pessoa:
A altura de um adulto é uma variável aleatória dentro de um intervalo de números, levando como parâmetros a menor e maior pessoa do mundo, uma afirmativa razoável é que a altura de uma pessoa está entre 63 e 251 cm.
Conheça a maior e a menor pessoa do mundo.
● Temperatura em graus celsius
A temperatura de um local medida em graus celsius também é uma variável aleatória dentro de um intervalo, utilizando os parâmetros de máximo e mínimo registrados na terra, é razoável afirmar que essa variável aleatória assume valores entre -89 a 57 graus centígrados.
Conheça o lugar mais quente e mais frio do mundo.
Além dos exemplos anteriores que são de variáveis quantitativas, também existem variáveis aleatórias que são qualitativas, por exemplo qual será o sexo de um recém nascido (Menino ou Menina) ou qual será a cor dos olhos (Castanhos, Verde ou Azul).
Quais são as categorias das Variáveis Aleatórias?
As variáveis aleatórias podem ser divididas em um primeiro momento entre quantitativas e qualitativas, que basicamente divide variáveis numéricas e não numéricas. Dentro de cada uma dessas duas categorias, temos mais duas categorias que são hierárquicas as variáveis quantitativas e qualitativas.
Entre as variáveis quantitativas ou numéricas, temos as variáveis aleatórias contínuas e variáveis aleatórias discretas.
Na categoria das variáveis qualitativas, dividimos entre variáveis aleatórias ordinais e variáveis aleatórias nominais.
● Variável Quantitativa discreta:
Uma variável quantitativa discreta é aquela que além de numérica, nós conseguimos enumerar os possíveis resultados, isto é, é possível contar os resultados possíveis. Por exemplo, o exemplo de lançamento de dados com 6 lados, os valores possíveis são 1, 2, 3, 4, 5 e 6, qualquer outro valor é impossível.
● Variável Quantitativa contínua:
A variável quantitativa contínua é numérica também, mas não conseguimos contar todos os valores que ela pode assumir, isto é, ela assume infinitos valores. Por exemplo, a altura de uma pessoa está em todos os valores possíveis dentro de um intervalo, mas não podemos contar todas as possíveis soluções.
● Variável Qualitativa ordinal
Uma variável qualitativa ordinal, é não numérica, porém tem uma ordem pré estabelecida. Por exemplo, o grau de escolaridade é ordinal mas não numérico, sabemos que o ensino superior vem depois do ensino médio, mas não conseguimos calcular a diferença numérica deles.
● Variável Qualitativa nominal
Uma variável qualitativa nominal, é não numéricae não tem ordem. Por exemplo, o gênero de uma pessoa pode ser masculino ou feminino, não existe uma ordem entre eles e também não é possível calcular diferenças numéricas.
Como essas quatro categorias (discreta, contínua, ordinal e nominal) são hierárquicas as duas primeiras (quantitativa e qualitativa), é muito comum descrever as variáveis somente com as mesmas.
O que é uma medida de centralidade?
As medidas de centralidade são indicadores que dão informações sobre a distribuição de probabilidade das variáveis aleatórias, as 2 principais medidas de centralidade são a média e a mediana. Vamos entender um pouco melhor?
● Média:
O time de basquete da escola tem em média 1,97 metros de altura, isso significa que a nossa variável aleatória (altura dos jogadores do time) está distribuída em torno de 1,97 metros.
Para calcular a média, basta somar todos os valores e dividir pela quantidade de valores. Por exemplo, levando em conta a amostra (1,3,5,5,7,9), temos que a soma desses valores é 30 e dividido pelo tamanho do conjunto (6 números), a média é igual a 5.
● Mediana:
O time de basquete da escola tem mediana de 1,97 metros de altura, isso significa que metade dos jogadores está acima dessa altura e a outra metade abaixo.
Para calcular a mediana, é preciso ordenar todos os valores da amostra, no caso de quantidade ímpar de números na amostra, a mediana será o valor central e no caso de quantidade par na amostra, a mediana é a média dos 2 valores centrais.
Por exemplo, levando em conta a amostra (1,3,5,10,7,9), temos que, como a amostra tem 6 valores, os valores centrais são 5 e 10, logo a mediana é 7,5. Se tivéssemos a seguinte amostra (1,2,5,7,8), a mediana seria 5.
A principal diferença entre as duas medidas, além da forma de calcular, é a sensibilidade a outliers, isto é, um valor muito maior ou muito menor que os demais em uma amostra tem um poder de influência maior para a média do que para a mediana, principalmente em amostras pequenas.
Por exemplo, vamos pegar a amostra (1,6,8,9,76), a média dessa amostra é 20, mas se tirarmos o valor 73 da amostra e calcularmos novamente a média, o valor da média é igual a 6, muito distante da média calculada para o grupo todo.
Para o mesmo exemplo, a mediana encontrada para todos os valores da amostra é 8, se retirarmos o valor 73 novamente da amostra e calculamos novamente a mediana, o valor é igual a 7, bem próxima da mediana para todos os valores da amostra.
Essa influência dos valores outliers na média é inversamente proporcional ao tamanho da amostra, isto é, quanto maior a amostra, menor será a influência dos outliers nas média.
Seja um cientista de dados!
Você sabia que, segundo GlassDoor, o salário médio do Cientista De Dados no Brasil é de R$8.000?
Com a Formação de Cientistas de Dados da Voitto você vai ter acesso aos cursos de Fundamentos Essenciais para Python, Python Intermediário para Análise de Dados e Tópicos Avançados em Python para Análise de Dados. Além disso, você vai aprender a utilizar bibliotecas essenciais para organização, como NumPy, Matplotlib, Pandas e Seaborn!
Caso suas expectativas não sejam atendidas no prazo de 30 dias, reembolsamos 100% do valor investido.
Está esperando o que? Mude o rumo da sua história e se especialize!


