O que é uma Variável Aleatória?
Quais são as categorias das Variáveis Aleatórias?
O que é uma medida de centralidade?
Seja um cientista de dados!

Variáveis Aleatórias: o que são, quais são as categorias e o que é medida de posição?

As variáveis aleatórias são muito importantes e aparecem em diversos contextos, principalmente no mundo da estatística e da matemática. Confira agora!

Victor Zoré
Por: Victor Zoré
Variáveis Aleatórias: o que são, quais são as categorias e o que é medida de posição?

O que é uma Variável Aleatória?

Uma variável aleatória é uma medida de interesse em análise estatística que assume valores em um possível conjunto de observações.

Achou confuso? Imagina que eu peça para você jogar um dado comum de 6 lados e me dizer qual o valor da face voltada para cima, nós não sabemos que valor vai aparecer, porém nós sabemos quais são as possibilidades de valores que são de 1 a 6.

Esse valor observado é chamado de variável aleatória.

Para facilitar o entendimento, eu trouxe mais alguns exemplos:

●  Altura de uma pessoa

A altura de um adulto é uma variável aleatória dentro de um intervalo de números, levando como parâmetros a menor e maior pessoa do mundo, uma afirmativa razoável é que a altura de uma pessoa está entre 63 e 251 cm.

Conheça a maior e a menor pessoa do mundo.

●  Temperatura em graus celsius

A temperatura de um local medida em graus celsius também é uma variável aleatória dentro de um intervalo, utilizando os parâmetros de máximo e mínimo registrados na terra, é razoável afirmar que essa variável aleatória assume valores entre -89 a 57 graus centígrados.

Conheça o lugar mais quente e mais frio do mundo.

Além dos exemplos anteriores que são de variáveis quantitativas, também existem variáveis aleatórias que são qualitativas, por exemplo qual será o sexo de um recém nascido (Menino ou Menina) ou qual será a cor dos olhos (Castanhos, Verde ou Azul).

Quais são as categorias das Variáveis Aleatórias?

As variáveis aleatórias podem ser divididas em um primeiro momento entre quantitativas e qualitativas, que basicamente divide variáveis numéricas e não numéricas. Dentro de cada uma dessas duas categorias, temos mais duas categorias que são hierárquicas as variáveis quantitativas e qualitativas.

Entre as variáveis quantitativas ou numéricas, temos as variáveis aleatórias contínuas e variáveis aleatórias discretas.

Na categoria das variáveis qualitativas, dividimos entre variáveis aleatórias ordinais e variáveis aleatórias nominais.

●  Variável Quantitativa discreta:

Uma variável quantitativa discreta é aquela que além de numérica, nós conseguimos enumerar os possíveis resultados, isto é, é possível contar os resultados possíveis. Por exemplo, o exemplo de lançamento de dados com 6 lados, os valores possíveis são 1, 2, 3, 4, 5 e 6, qualquer outro valor é impossível.

Variável Quantitativa contínua:

A variável quantitativa contínua é numérica também, mas não conseguimos contar todos os valores que ela pode assumir, isto é, ela assume infinitos valores. Por exemplo, a altura de uma pessoa está em todos os valores possíveis dentro de um intervalo, mas não podemos contar todas as possíveis soluções.

●  Variável Qualitativa ordinal

Uma variável qualitativa ordinal, é não numérica, porém tem uma ordem pré estabelecida. Por exemplo, o grau de escolaridade é ordinal mas não numérico, sabemos que o ensino superior vem depois do ensino médio, mas não conseguimos calcular a diferença numérica deles.

Variável Qualitativa nominal

Uma variável qualitativa nominal, é não numéricae não tem ordem. Por exemplo, o gênero de uma pessoa pode ser masculino ou feminino, não existe uma ordem entre eles e também não é possível calcular diferenças numéricas.

Como essas quatro categorias (discreta, contínua, ordinal e nominal) são hierárquicas as duas primeiras (quantitativa e qualitativa), é muito comum descrever as variáveis somente com as mesmas.

Variáveis Aleatórias

O que é uma medida de centralidade?

As medidas de centralidade são indicadores que dão informações sobre a distribuição de probabilidade das variáveis aleatórias, as 2 principais medidas de centralidade são a média e a mediana. Vamos entender um pouco melhor?

Média:

O time de basquete da escola tem em média 1,97 metros de altura, isso significa que a nossa variável aleatória (altura dos jogadores do time) está distribuída em torno de 1,97 metros.

Para calcular a média, basta somar todos os valores e dividir pela quantidade de valores. Por exemplo, levando em conta a amostra (1,3,5,5,7,9), temos que a soma desses valores é 30 e dividido pelo tamanho do conjunto (6 números), a média é igual a 5.

Mediana:

O time de basquete da escola tem mediana de 1,97 metros de altura, isso significa que metade dos jogadores está acima dessa altura e a outra metade abaixo.

Para calcular a mediana, é preciso ordenar todos os valores da amostra, no caso de quantidade ímpar de números na amostra, a mediana será o valor central e no caso de quantidade par na amostra, a mediana é a média dos 2 valores centrais.

Por exemplo, levando em conta a amostra (1,3,5,10,7,9), temos que, como a amostra tem 6 valores, os valores centrais são 5 e 10, logo a mediana é 7,5. Se tivéssemos a seguinte amostra (1,2,5,7,8), a mediana seria 5.

Medidas de posição


A principal diferença entre as duas medidas, além da forma de calcular,  é a sensibilidade a outliers, isto é, um valor muito maior ou muito menor que os demais em uma amostra tem um poder de influência maior para a média do que para a mediana, principalmente em amostras pequenas.

Por exemplo, vamos pegar a amostra (1,6,8,9,76), a média dessa amostra é 20, mas se tirarmos o valor 73 da amostra e calcularmos novamente a média, o valor da média é igual a 6, muito distante da média calculada para o grupo todo.

Para o mesmo exemplo, a mediana encontrada para todos os valores da amostra é 8, se retirarmos o valor 73 novamente da amostra e calculamos novamente a mediana, o valor é igual a 7, bem próxima da mediana para todos os valores da amostra.

Essa influência dos valores outliers na média é inversamente proporcional ao tamanho da amostra, isto é, quanto maior a amostra, menor será a influência dos outliers nas média.

Seja um cientista de dados!

Você sabia que, segundo GlassDoor, o salário médio do Cientista De Dados no Brasil é de R$8.000?

Com a Formação de Cientistas de Dados da Voitto você vai ter acesso aos cursos de Fundamentos Essenciais para Python, Python Intermediário para Análise de Dados e Tópicos Avançados em Python para Análise de Dados. Além disso, você vai aprender a utilizar bibliotecas essenciais para organização, como NumPy, Matplotlib, Pandas e Seaborn!

Caso suas expectativas não sejam atendidas no prazo de 30 dias, reembolsamos 100% do valor investido.

Está esperando o que? Mude o rumo da sua história e se especialize!

Formação Cientista de Dados

Victor Zoré

Victor Zoré

De Araras, interior de São Paulo, estudante da UFSCar em São Carlos no curso de Bacharelado em Estatística no ano de 2013. De estagiário em análise de tráfego pago a cientista de dados sênior em uma startup de seguros. Minha carreira profissional começou em 2018 em uma das maiores agências de marketing digital da América Latina, ainda como estagiário fui para área de ciência de dados para desenvolver relatórios avançados sobre as campanhas. Fundei minha agência em seguida, mas um convite para ser consultor de dados em São Paulo mudou meus planos, aceitei o desafio e desenvolvi projetos na área de modelagem para Santander e Carrefour. Em seguida, um novo convite me levou para a HartB, ainda como consultor, criei e desenvolvi uma solução do zero para a otimização de milhões de investimento em marketing na Hypera, gigante da indústria farmacêutica. Novamente um novo desafio, desta vez para uma startup de crédito consignado, desenvolvendo soluções de reconhecimento de imagem em ferramentas de cloud da Amazon, modelos de Machine Learning e Leadscore. Recentemente, um novo desafio como cientista de dados senior na Youse, a maior startup digital de seguros, integrando um time de dados que desenvolve modelos de machine learning para grandes bancos de dados, através das ferramentas de nuvem. A maioria dos projetos foram desenvolvidos utilizando as linguagens R, Python, SQL e HTML. Também tenho conhecimento em Tableau, RapidMiner e ferramentas de nuvem do Google e Amazon. Entusiasta da área de marketing digital e conteúdo.

Guia de carreira para novos cientistas de dados

QUER RECEBER CONTEÚDO VIP?

Entre para nossa lista e receba conteúdos exclusivos e com prioridade.

Respeitamos sua privacidade e nunca enviaremos spam!

voitto.com.br

© Copyright 2008 - 2024 Grupo Voitto - TODOS OS DIREITOS RESERVADOS.

Guia De Carreira Para Novos Cientistas De Dados

Para baixar o material, preencha os campos abaixo:

Possui graduação completa?

Concordo em receber comunicações de acordo com a Política de Privacidade.