8  Variáveis Aleatórias Multidimensionais

Conceitos Inciciais

Author

Alexandre Nicolella

Published

March 12, 2026

8.1 Introdução

Até o momento nos interessou observar apenas uma característica de um experimento. Por exemplo, a altura média dos alunos do curso de estatística. Podemos também estar interessados em mais uma característica adicional, como o peso dos alunos do curso de estatística.

Portanto, queremos observar duas características de forma simultânea dos alunos: altura e peso. Ou seja, duas características simultaneamente do mesmo experimento \(\epsilon\).

Considere o experimento de jogar dois dados não viciados de forma simultânea. Define-se duas variáveis aleatórias: \(X\) o número que aparece no dado 1 e \(Y\) o número que aparece no dado 2. Assim, temos o seguinte espaço amostral com 36 elementos (6x6):

\[\Omega = { \{(1,1),(1,2),(1,3),...,(6,6)\} }\]

Como o dado é não viciado cada evento (x,y) tem a mesma probabilidade de ocorrência de 1/36. Assim, a função de probabilidade bivariada é:

\[p(x_{i},y_{j})=P(X=x_{i},Y=y_{j})=1/36 \]

para \(i=1,...,6\) e \(j=1,...6\).

Assim como no caso unidimensional pode-se construir um histograma. Com base no exemplo acima, podemos fazer o seguinte histograma tridimensional para o par de dados \(X\) e \(Y\), ou seja, a distribuição conjunta de \((X,Y)\):

Distribuição conjunta uniforme discreta

Com base nessa ideia podemos fazer a seguinte definição:

NoteDEFINIÇÃO

Seja \(\epsilon\) um experimento, \(\Omega\) um espaço amostral, \(X = X(\omega)\) e \(Y = Y(\omega)\), para \(\omega \in \Omega\), \((X,Y)\) será uma variável aleatória bidimensional (ou vetor aleatório).

Agora possuímos não mais um espaço unidimensaional \(R_{x}\) como anteriormente visto, mas sim bidimensional, ou seja, o contradomínio da variável aleatória será \(R_{xy}\) e cada resultado \(X = X(\omega)\) e \(Y = Y(\omega)\) pode ser representado como um ponto \((x,y)\) no plano euclidiano. Podemos dividir os resultado de um experimento em dois tipos, os discretos e os contínuos. Vejamos abaixo esses dois tipos de resultados.

8.2 Distribuição de Probabilidade

8.2.1 Variáveis Aleatórias Discretas

São variáveis que conseguimos colocar em lista, seja ela finita ou infinita. Assim, o vetor (X,Y) será uma variável aleatória discreta bidimensional ou vetor aleatório bidimensional se os valores possíveis puderem ser representados por \((x_{i},y_{i})\), \(i=1,...,n,...\); e \(j=1,2,...,m,...\)

Como no caso unidimensional tem-se, podemos definir a distribuição de probabilidade conjunta de \((X,Y)\)

NoteDEFINIÇÃO

A cada valor possível da variável aleatória bidimensional \((X,Y)\), \((x_{i},y_{j})\), associamos uma probabilidade \(p(x_{i},y_{j})\), \(P (X=x_{i},Y=y_{i})\), e irá satisfazer:

  1. \(p(x_{i},y_{j}) \geq 0\) para todo \((x,y)\)

  2. \(\sum_{i} \sum_{j} p(x_{i},y_{j})=1\)

Com base na definição anterior podemos definir agora o que seria a função distribuição conjunto, ou seja:

NoteDEFINIÇÃO

Função de probabilidade conjunta de (X,Y) (ou bivariada):

\(p(x_{i},y_{j})= P(X=x_{i},Y=y_{j})\) para \(-\infty < x_{i}< \infty\) e \(-\infty < y_{j}< \infty\)

Distribuição de probabilidade conjunta de (X,Y) (ou bivariada):

\([x_{i},y_{j},p(x_{i},y_{j})]\)

Para fixarmos as definições apresentadas acimas, e colocarmos os conceitos em prática, vamos realizar dois exemplos.

TipEXEMPLO

Considere o experimento de jogar dois dados simultaneamente. Considere a função de distribuição conjunta e calcule a probabilidade conjunta de \(P(5\leq X \leq 6, 1 \leq Y \leq 2)\)

\(P(5\leq X \leq 6, 1 \leq Y \leq 2)= p(5,1)+p(5,2) + p(6,1)+p(6,2) = 4 * 1/36= 1/9\)

TipEXEMPLO

Um supermercado possui três caixas operando. Dois consumidores chegam aos caixas, que estão vazios, em momentos distintos do tempo. Cada consumidor escolhe um caixa de forma aleatória e independente do outro. Seja X o número de consumidores que escolhem o caixa 1 e Y os que escolhem o caixa 2. Qual a distribuição conjunta de X e Y?

O espaço amostral do experimento será dado pelo par ordenado \(\{ i,j \}\), onde o primeiro consumidor escolhe o caixa i e o segundo escolhe \(j\), tal que \(i=1,2,3\) e \(j=1,2,3\). Assim, cada ponto amostral tem a mesma probabilidade e o espaço amostral pode ser representado como :

\[\Omega = { \{(1,1),(1,2),(1,3),...,(3,3)\} } \]

A distribuição conjunta de X e Y será conforme descrito na tabela abaixo. Para construir essa tabela note que, por exemplo, \(P(X=0,Y=0)=P(\{(3,3)\})=1/9\) e que \(P(X=0,Y=1)=P(\{(2,3),(3,2)\})=2/9\)

y (cx2) x=0 (cx1) x=1 (cx1) x= 2 (cx1)
y=0 1/9 2/9 1/9
y=1 2/9 2/9 0
y=2 1/9 0 0

Vejamos agora alguns gráficos de variáveis aleaórias bidimensionais:

BINOMIAL:

Considere a variável aleatória \((X,Y)\) com distribuição binomial e a probabilidade de sucesso de \(X\) é igual a 0.75 e de \(Y\) igual a 0.25 com 10 rodadas:

Distribuição conjunta Binomial

POISSON
Considere a variável aleatória \((X,Y)\) com distribuição de poisson e o valor esperado de \(X\) igual a 7, de \(Y\) igual a 4 e a covariância é 3 (a frente veremos esse conceito):

Distribuição conjunta de Poisson

8.2.2 Variáveis Aleatórias Contínuas

São variáveis que não conseguimos listar, pois existem infinitos valores entre dois pontos. Assim,o vetor \((X,Y)\) será uma variável aleatória contínua se puder tomar todos os valores em algum conjunto não enumerável no plano euclediano

NoteDEFINIÇÃO

Sendo \((X,Y)\) variável aleatória contínua bidimensional. A função densidade de probabilidade conjunta, \(f(x,y)\), irá satisfazer:

  1. \(f(x,y) \geq 0\)

  2. \(\int \int_{R} f(x,y)dxdy= 1\) se f(x,y)=0 para \((x,y)\notin R \rightarrow \int_{- \infty}^{\infty}\int_{- \infty}^{\infty} f(x,y)=1\)

Importante notar que \(f(x,y)\) não representa a probabilidade. Assim para um evento B em \(R_{xy}\):

\[P(B)=P\{ [X(\omega),Y(\omega)] \in B \}= P\{\omega | [X(\omega),Y(\omega)] \in B \}\]

Para o caso discreto:

\[P(B)=\sum \sum_{B} p(x_{i},y_{j})\]

Para o caso contínuo:

\[P(B)=\iint_{B} f(x,y)dxdy\]

Reinterpretando o exposto acima sobre o evento B, como no caso unidimensional, onde a área sobre a função densidade de probabilidade representa a probabilidade, no caso bidimensional o volume sob a função densidade de probabilidade conjunta representa a probabilidade.

Assim, uma probabilidade \(P(a \leq X \leq b, c\leq Y \leq d)\) é calculada como:

\[P(a \leq X \leq b, c\leq Y \leq d) = \int_{c}^{d}\int_{a}^{b} f(x,y)dxdy\]

TipEXEMPLO

Suponha que uma partícula é aleatoriamente alocada em um quadrado com lados iguais a 1. Assim, se duas áreas de mesma dimensão forem consideradas a partícula tem a mesma probabilidade de estar em qualquer uma das duas áreas. Seja X e Y as coordenadas da localização da partícula. A função de densidade conjunta de X e Y será:

\[f(x,y) = \begin{cases} 1, & 0 \le x \le 1, \ 0 \le y \le 1 \\ 0, & \text{caso contrário} \end{cases}\]

Assim:

  1. Esboce a função densidade de probabilidade conjunta

  2. Encontre \(P(0 \leq X \leq 0.2, 0\leq Y \leq 0.4)\)

Resposta a:

Função densidade de probabilidade conjunta

Resposta b:

\[P(0 \leq X \leq 0.2,0 \leq Y \leq 0.4)= \int_{0}^{0.4}\int_{0}^{0.2}f(x,y)dxdy\] \[=\int_{0}^{0.4}\int_{0}^{0.2}1dxdy=\int_{0}^{0.4}\bigg(\int_{0}^{0.2}1dx\bigg)dy\] \[=\int_{0}^{0.4}\Big(x\Big|_{0}^{0.2}\Big)dy =(0.2-0)\int_{0}^{0.4}dy = (0.2-0).\Big(y\Big|_{0}^{0.4}\Big)\] \[=(0.2-0)(0.4-0)=0.08\] \[P(0 \leq X \leq 0.2,0 \leq Y \leq 0.4)=0.08\]

Vejamos agora alguns gráficos de variáveis aleaórias bidimensionais:

NORMAL BIVARIADA:

Considere a variável aleatória \((X,Y)\) com distribuição normal bivariada com a esperança de \(X\) igual a 10, de \(Y\) igual a 4, o desvio-padrões iguais a 3 e 2 respectivamente. Aqui consideremaos a correlação de 0.7 (veremos mais a frente esse conceito).

Distribuição conjunta normal bivariada

NORMAL BIVARIADA PADRÃO:

Considere a variável aleatória \((X,Y)\) com distribuição normal bivariada padrão, ou seja, a esperança de \(X\) e \(Y\) igual a a 1, o desvio-padrões iguais a 1 e sem covariancia.

Distribuição conjunta normal padrão bivariada

8.3 Distribuição Acumulada

Como no caso univariado a distinção entre variável aleatória conjunta contínua e conjunta discreta pode ser feita em termos de sua função distribuição conjunta acumulada.

8.3.1 Variável Aleatória Discreta

NoteDEFINIÇÃO

A função distribuição conjunta acumulada, F, da variável aleatória bidimensional (X,Y) é definida por:

\[F(x,y)= P(X \leq x, Y \leq y) \ para \ -\infty < x_{i} < \infty \ e \ -\infty < y_{i} < \infty\]

Seja X e Y duas variáveis aleatórias discretas com função distribuição conjunta \(F(x,y)\), a função distribuição conjunta acumulada de X e Y será:

\[F(x,y)=\sum_{f1=- \infty }^{x} \sum_{f2=- \infty }^{y}p(t_{1},t_{2})\]

Retomando os exemplos anteriores temos as seguintes funções de distribuição conjunta acumuladas discretas:

TipEXEMPLO

Para o caso dos dois dados apresentados anteriormente temos que:

\(F(2,3)=P(X\leq 2, Y \leq 3)=p(1,1)+p(1,2)+p(1,3)+p(2,1)+p(2,2)+p(2,3)\)

\(F(2,3)=P(X\leq 2, Y \leq 3)=6/36=1/6\)

O gráfico segue abaixo.

Distribuição acumulada conjunta uniforme discreta
TipEXEMPLO

Para o exemplo anterior (caixa do supermercado) encontre F(-1,2) e F(1.5,2)

\(F(-1,2) = P(X \leq -1, Y \leq 2)= P(\emptyset)=0\)

*Note que é impossível no exemplo do caixa o valor assumir -1, portanto, temos a probabilidade de um conjunto vazio, que será zero.

\[\begin{aligned} F(1.5,2) &= P(X \leq 1.5, Y \leq 2) \\ &= p(0,0)+p(0,1)+p(0,2)+p(1,0)+p(1,1)+p(1,2)=8/9 \end{aligned}\]

BINOMIAL:

Considere a variável aleatória \((X,Y)\) com distribuição binomial e a probabilidade de sucesso de \(X\) é igual a 0.75 e de \(Y\) igual a 0.25 com 10 rodadas, sua função distribuição acumulada será:

Distribuição conjunta Binomial

POISSON
Considere a variável aleatória \((X,Y)\) com distribuição de poisson e o valor esperado de \(X\) igual a 7, de \(Y\) igual a 4 e a covariância é 3 (a frente veremos esse conceito). Assim a função distribuição acumulada será:

Distribuição conjunta de Poisson

8.3.2 Variável Aleatória Contínua

Seja X e Y duas variáveis aleatórias contínuas com função distribuição conjunta \(F(x,y)\). Se existir uma função densidade de probabilidade conjunta \(f(x,y)\) não negativa, assim a função distribuição conjunta acumulada de X e Y será:

\[F(x,y) = \int_{-\infty}^{x}\int_{- \infty}^{y} f(t_{1},t_{2})dt_{1}dt_{2} \ para \ -\infty < x_{i} < \infty \ e \ -\infty < y_{i} < \infty\]

TipEXEMPLO

Para o exemplo anterior da partícula, encontre F(0.4, 0.4):

Ver figura abaixo.

\[P(X \leq 0.4 ,Y \leq 0.4)= \int_{0}^{0.4}\int_{0}^{0.4}f(x,y)dxdy\]

\[=\int_{0}^{0.4}\int_{0}^{0.4}1dxdy=\int_{0}^{0.4}\bigg(\int_{0}^{0.4}1dx\bigg)dy=\int_{0}^{0.4}\Big(x\Big|_{0}^{0.4}\Big)dy\]

\[=(0.4-0)\int_{0}^{0.4}dy=(0.4-0).\Big(y\Big|_{0}^{0.4}\Big)=(0.4-0)(0.4-0)=0.016\]

\[P(X \leq 0.4,Y \leq 0.4)=0.016\]

NoteTEOREMA

Seja \(X\) e \(Y\) duas variáveis aleatórias contínuas com função distribuição conjunta \(F(x,y)\) então:

\[a) \ F(- \infty, - \infty )= F(- \infty, y )= F(x, - \infty )=0\]

\[b) \ F(\infty, \infty ) = 1\]

No caso univariado tem-se:

\[f(x,y) = \frac{\partial^{2}F(x,y) }{\partial x \partial y}\]

Vejamos agora alguns gráficos de variáveis aleaórias bidimensionais:

NORMAL BIVARIADA:

Considere a variável aleatória \((X,Y)\) com distribuição normal bivariada com a esperança de \(X\) igual a 10, de \(Y\) igual a 4, o desvio-padrões iguais a 3 e 2 respectivamente. Aqui consideremaos a correlação de 0.7 (veremos mais a frente esse conceito). Assim a função distribuição acumulada conjunta terá o seguinte formato:

Distribuição acumulada conjunta normal

NORMAL BIVARIADA PADRÃO: Considere a variável aleatória \((X,Y)\) com distribuição normal bivariada padrão, ou seja, a esperança de \(X\) e \(Y\) igual a a 1, o desvio-padrões iguais a 1 e sem covariância. Assim a função distribuição acumulada conjunta terá o seguinte formato:

Distribuição acumulada conjunta normal padrão

8.4 Distribuição de Probabilidade Marginal e Condicional

8.4.1 Distribuição de Probabilidade Marginal

Dada a variável bidimensional \((X,Y)\) podemos estar interessados em X ou Y individualmente. Agora não mais queremos entender como se distribui conjuntamente renda e consumo. Com base na distribuição conjunta, quero saber somente como a renda distribui, por exemplo.

8.4.1.1 Para o caso discreto

Para o caso discreto, temos a seguinte distribuição marginal de X:

\[p(x_{i})=P(X=x_{i})=P(X=x_i, Y=y_i \ ou \ X=x_i,Y=y_2 ....)\]

\[p(x_i)=\sum_j p(x_i,y_j)\]

Onde p é a função distribuição marginal de \(X\). Podemos pensar em \(Y\) de forma análoga.

A intuição aqui é que se queremos a marginal de \(X\) temos que empilhar na direção de \(Y\), assim o eixo \(y\) irá sumir. Vejamos graficamente.

Vejamos um exemplo extraído de Inouye,D.I. et al.(2017)1:

Distribuição marginal de Poisson

Veja que se quisermos a distribuiçao marginal de \(X\), apresentada a esquerda, temos que somar as barras ou empilha-las na direção de \(Y\).

8.4.1.2 Para o caso continuo

O caso contínuo é similar ao discreto. No contínuo, a função densidade marginal de X será:

\[g(x)=\int_{-\infty}^{\infty}f(x,y)dy\]

E a função densidade marginal de y será:

\[h(y)=\int_{-\infty}^{\infty}f(x,y)dx\]

Aqui temos que mostrar uma figura para ilustrar.

TipEXEMPLO

Suponha que \((X,Y)\) seja uma variável aleatória bidimensional. Não estamos interessados em \(Y\), gostariamos de saber somente qual a probabilidade de encontrarmos valores de \(x\) entre c e d. Assim:

\[P(c\leq x \leq d)=P[c\leq X \leq d, -\infty < Y < \infty] \]

\[P(c\leq x \leq d)=\int_{c}^{d}\int_{-\infty}^{\infty}f(x,y)dydx \]

\[P(c\leq x \leq d)=\int_{c}^{d}g(x)dx \]

Vejamos um exemplo extraído de Selvan, R.(2015) 2:

Distribuição marginal de Poisson

Veja que se quisermos a distribuiçao marginal de \(X\), apresentada ao fundo, temos que somar as barras ou empilha-las na direção de \(Y\).

8.4.2 Distribuição de Probabilidade Condicional

Na distribuição maringao, tinhamos a distribuição conjunta entre renda e consumo e estavamos interessados somente na renda. Agora estamos querendo saber qual a distribuição da renda para certa faixa de consumo, ou o contrário, qual a distribuição do consumo para dada faixa de renda.

Para o caso discreto:

Para variáveis discretas temos o seguinte:

\[P(x_i|y_j)=P(X=x_i|Y=y_j)\]

\[P(x_i|y_j)= \frac{P(x_i,y_j)}{q(y_{j})}\]

Note que \(P(x_i|y_j)\geq 0\) e \(\sum_iP(x_i|y_j)=1\)

Vejamos um exemplo extraído de Inouye,D.I. et al.(2017)3:

Distribuição condicional de Poisson

Veja que se quisermos a distribuição condicional de \(X\) dado um certo valor de \(Y\), por exemplo, \(Y=2\).Temos que considerar as barras marcadas e repondera-las pela chance de \(Y=2\) acontecer. Ou seja, agora \(Y=2\) será o total.

8.4.2.1 Para o caso contínuo

Para o caso contínuo a f.d.p. de \(X\) condicionada a um dado \(Y=y\) é:

\[g(x|y)= \frac{f(x,y)}{h(y)}\]

De forma análoga para \(Y\):

\[h(y|x)= \frac{f(x,y)}{g(x)}\]

Note que \(g(x|y)\geq 0\) e

\[\int_{-\infty}^{\infty}g(x|y)dx=\int_{-\infty}^{\infty} \frac {f(x,y)}{h(y)}dx=\frac{h(y)}{h(y)}=1\]

Inserir um gráfico e falar da intuição.

Vejamos um exemplo extraído de Neuper,M. e Ehret,U. (2019)4:

Distribuição condicional normal

Veja que se quisermos a distribuição condicional de \(X\) dado um certo valor de \(Y\), por exemplo, \(Y=-2\).Temos que considerar a linha marcada e novamente reponder todos os elementos pela chance de \(Y=-2\) acontecer. Ou seja, agora \(Y=-2\) será o total.

8.4.3 Variáveis Aleatórias Independentes

Independencia está ligado ao conceito de informação e quanto essa informação recebida muda sua opinião do que irá acontecer com o caso sobre estudo. Podemos dar uma informação sobre renda e perguntarmos sobre o consumo desse parte da população. Quando os resultados de \(X\) influenciam o resultado de \(Y\) dizemos que as variáveis são dependentes. Caso a informação sobre \(X\) não afeta de meneira nenhuma os resultados de \(Y\), dizemos que são independentes.

8.4.3.1 Para o caso discreto

NoteDEFINIÇÃO

Para a variável bidimensional discreta \((X,Y)\), \(X\) e \(Y\) serão independentes se

\[p(x_i,y_j)=p(x_i)p(y_j)\]

Ou, de outra maneira:

\[P(x_i|y_j)= \frac{P(x_i,y_j)}{q(y_i)}= \frac{P(x_i)q(y_j)}{q(y_i)}=P(x_i)\]

8.4.3.2 Para caso Contínuo

NoteDEFINIÇÃO

Para a variábel bidimensional contínua \((X,Y)\), X e Y serão independentes se: \[f(x,y)=g(x)h(y)\]

Ou, de outra maneira:

\[g(x|y)= \frac{f(x,y)}{h(y)}= \frac{g(x)h(y)}{h(y)}=g(x)\]

Com base nessas definições podemos agora apresentar o seguinte teorema que conecta o que viram em probabilidade com variáveis aleatórias multidimesionais.

NoteTEOREMA

Seja \((X,Y)\) uma variável aleatória bidimensional e A e B dois eventos que dependem de X e Y, respectivamente. Então, se \(X\) e \(Y\) forem independentes:

\[P(A \cap B)= P(A) P(B)\]


Prova:

\[P(A \cap B)= {\int_{}^{}\int_{}^{}}_{P(A \cap B)}f(x,y)dxdy= {\int_{}^{}\int_{}^{}}_{P(A \cap B)}g(x)h(y)dxdy\]

\[P(A \cap B)={\int_{A}^{}g(x)dx\int_{B}^{}h(y)dy}=P(A)P(B)\]

TipEXEMPLO

Suponha uma f.d.p. conjunta da variábel aleatória bidimensional \((X,Y)\):

\[f(x,y)=\left\{\begin{matrix} x^{2}+ \frac{xy}{3}, \ para \ 0<x<1,0<y<2 \\ 0,\ caso\ contrário \end{matrix}\right.\]

Calcule a \(P(Y<X)\):

\[P(Y<X)=\int_{0}^{1}\int_{0}^{x} x^{2}+ \frac{xy}{3} dydx\]

\[P(Y<X)=\int_{0}^{1} \bigg[x^{2}y+ \frac{xy^{2}}{6}\bigg]_0^{x} dy \]

\[P(Y<X)=\int_{0}^{1} \bigg[x^{3}+ \frac{x^{3}}{3}\bigg] dy \]

\[P(Y<X)= \bigg[\frac{x^{4}}{4}+ \frac{x^{4}}{24}\bigg]_0^{1} \]

\[P(Y<X)= \frac{1}{4}+\frac{1}{24}=\frac{7}{24}\]

8.5 Coeficiente de Correlação

Até o momento medimos a \(E(X)\) e a \(Var(X)\), ou seja, uma medida de posição e de variabilidade em relação a \(R_x\), Entretanto, quando temos um vetor bidimensional \((X,Y)\) uma outra medida surge, a qual tenta media o “grau de associação” linear entre X e Y.

NoteDEFINIÇÃO

Seja \((X,Y)\) uma variável aleatória bidimensional. O Coeficiente de Correlação \(\rho_{X,Y}\) entre X e Y será:

\[\rho_{X,Y}=\frac{E[(X-E(X))(Y-E(Y))]}{\sqrt{Var(X)Var(Y)}}\]

Um termo muito importante surge na expressão acima, a Covariância. Ela mede a variabilidade conjunta de uma variável aleátoria multidimensional. Como no caso da variância, ela sobre do efeito das escalas de medidas. Por isso que anteriormente dividimos pelos desvio-padrões. Lembre-se que já usamos esse artifício anteriormente para nos livrar da unidade de medida.

NoteDEFINIÇÃO

A Covariância entre \(X\) e \(Y\), \(Cov(X,Y)\), é dada por:

\[Cov(X,Y)=E[(X-E(X))(Y-E(Y))]\]

Novamente, a correlação mede o GRAU DE ASSOCIAÇÃO LINEAR. Vejamos algumas Propriedades da Correlação:

NoteTEOREMA

O coeficiente de correlação \(\rho_{X,Y}\) entre \(X\) e \(Y\) pode ser apresentado como:

\[\rho_{X,Y}=\frac{E(XY)-E(X)E(Y)}{\sqrt{Var(X)Var(Y)}}\]


Prova:

\[E[(X-E(X))(Y-E(Y))]=E[XY-XE(Y)-E(X)Y+E(X)E(Y)]\]

\[= E(XY)-E(X)E(Y)-E(X)E(Y)+E(X)E(Y)= E(XY)-E(X)E(Y)\]

NoteTEOREMA

Se \(X\) e \(Y\) forem independentes então:

\[\rho_{X,Y}=0\]


Prova:

Da propriedade da independência, se \(X\) e \(Y\) forem independentes então:

\[E(X,Y)=E(X)E(Y)\]

Considerando o teorema acima, e sabendo que as variáveis são independentes, então \(\rho_{X,Y}=0\)

IMPORTANTE: Note que Independência \(\Rightarrow \rho_{X,Y}=0\) mas não é verdade que \(\rho_{X,Y}=0 \Rightarrow Independência\)

NoteTEOREMA

O Coeficiente de Correlação possui valores entre -1 e 1, ou seja:

\[-1 \leq \rho \leq 1\]


Prova:

Considere a seguinte desigualdade verdadeira:

\[ \bigg(\frac{x-\mu_x}{\sigma_x}\mp \frac{Y-\mu_y}{\sigma_y} \bigg)^{2}\geq 0\]

A expressão continua verdadeira se aplicarmos o operador esperança:

\[E \bigg(\frac{x-\mu_x}{\sigma_x}\mp \frac{Y-\mu_y}{\sigma_y} \bigg)^{2}\geq 0\]

Desenvolvendo, temos que:

\[E\bigg[\bigg(\frac{x-\mu_x}{\sigma_x}\bigg)^{2}+\bigg(\frac{Y-\mu_y}{\sigma_y}\bigg)^{2} \mp 2 \bigg(\frac{x-\mu_x}{\sigma_x}\bigg)\bigg(\frac{Y-\mu_y}{\sigma_y}\bigg) \bigg]\geq 0\]

\[\frac{1}{\sigma_x^{2}}E({X-\mu_x})^{2}+\frac{1}{\sigma_y^{2}}E({Y-\mu_y})^{2}\mp 2 \frac{1}{\sigma_x \sigma_y}E[(X-\mu_x)(Y-\mu_y) ]\geq 0\]

\[\frac{\sigma_x^{2}}{\sigma_x^{2}}+\frac{\sigma_y^{2}}{\sigma_y^{2}}\mp 2\rho \geq 0\] \[\mp 2\rho \geq -2\] \[\therefore \rho \geq -1 \ e \ \rho \leq 1\]

NoteTEOREMA

Se X e Y forem duas variáveis aleatórias, onde \(Y=AX+B\), onde A e B são constantes. Então \(\rho^{2}=1\). Se \(A>0\), \(\rho=1\). Se \(A<0\), \(\rho=-1\)


Prova:

\[Y= AX +B\]

\[E(Y)=A E(X)+ B \ e \ VAR(Y)=A^{2}VAR(X)\]

\[E(XY)=E(AX^{2}+BX) \ \rightarrow AE(X^{2})+BE(X)\]

Então:

\[\rho^{2} = \frac{A^{2}Var(X)} {A^{2}Var(X)}=1\]

Assim, com base no exposto, temos que o coeficiente de correlação é uma medida do grau de linearidade entre X e Y. Dessa forma, \(\rho\) próximo a 1 e -1 indicam alto grau de linearidade e \(\rho\) próximo a zero indica ausência de relação linear - mas não diz nada sobre relações não-lineares.

Aqui, apresensemtamos um correlograma com base em variáveis simuladas:

Gráfico de correlação para variáveis simuladas v1 a v5

Vamos começar pelas variáveis v5 e v4, elas tem um comportantamento conjunto totalmente linear, ou seja, saber de v4 te informa corretmente o que acontecerá com v5. Aqui quando v5 sobe, v4 desce. Vejamos agora as variáveis v3 e v2, observe como os dados estão disperso, sem nenhum padrão de comportamento linear. Nesse caso a correlação é próxima a zero (-0.0135). Perceba que a relação não-linear entre v1 e v4 e v1 e v5, faz com que a correlação seja menor que 1 e não perfeita. Já as variáveis v1 e v2 mostram comportamento conjunto positivo, mas não perfeito, reativamente disperso. Quando v1 sobe, v2 também sobe, entretanto não cosneguimos prever esse comportamento perfeitamente.

8.7 Exercícios

Exercício 1 (ANPEC 2022 — Questão 04)

Tema: V.A. multidimensional contínua: densidade conjunta e esperança de combinação linear.

Seja a seguinte função de distribuição \[f(x,y)= \begin{cases} xy, & 0\le x\le 4,\ 1\le y\le 2,\\ 0, & \text{c.c.} \end{cases}\]

Encontre o valor esperado de \(X+3Y\).

Interpretação econômica pedida: interprete \(X\) e \(Y\) como dois componentes de custo/receita e \(X+3Y\) como um índice econômico ponderado.

Como está escrito, \[\int_0^4 \int_1^2 xy\,dy\,dx = 12 \neq 1.\]

Para tratar como densidade conjunta, use a versão normalizada \[f_{X,Y}(x,y)=kxy\]

no suporte, com \(k\cdot 12=1\), logo \[k=\frac{1}{12}.\]

Então, \[E[X]=\int_0^4\int_1^2 x\cdot \frac{1}{12}xy\,dy\,dx =\frac{1}{12}\left(\int_0^4 x^2\,dx\right)\left(\int_1^2 y\,dy\right) =\frac{1}{12}\cdot \frac{64}{3}\cdot \frac{3}{2} =\frac{8}{3}.\]

Além disso, \[E[Y]=\int_0^4\int_1^2 y\cdot \frac{1}{12}xy\,dy\,dx =\frac{1}{12}\left(\int_0^4 x\,dx\right)\left(\int_1^2 y^2\,dy\right) =\frac{1}{12}\cdot 8\cdot \frac{7}{3} =\frac{14}{9}.\]

Logo, \[E[X+3Y]=E[X]+3E[Y]=\frac{8}{3}+3\cdot \frac{14}{9}=\frac{22}{3}.\]

Comentário econômico: trata-se de um índice ponderado de dois componentes; a esperança é obtida pela linearidade.

Exercício 2 (Morettin & Bussab, Cap. 8)

Tema: V.A. bidimensional discreta: distribuição conjunta, marginais, independência e covariância.

Para que o item sobre distribuição conjunta faça sentido, considere dois lançamentos de uma moeda perfeita e um lançamento de um dado. Defina \[X=\text{número de caras nos dois lançamentos da moeda}, \qquad Y=\text{face do dado}.\]

  1. Determine o espaço amostral correspondente a esse experimento.

  2. Obtenha a tabela da distribuição conjunta de \((X,Y)\).

  3. Verifique se \(X\) e \(Y\) são independentes.

  4. Calcule:

    1. \(P(X=1)\)

    2. \(P(X\le 1)\)

    3. \(P(X=2,Y=3)\)

    4. \(P(X=0,Y\ge 1)\)

  5. Calcule \(\operatorname{Cov}(X,Y)\) e interprete.

Interpretação econômica pedida: use \(X\) como “sinal” (choque discreto) e \(Y\) como “estado” (regime) e discuta independência.

  1. Espaço amostral: \[\Omega=\{(m_1,m_2,d): m_1,m_2\in\{C,K\},\ d\in\{1,2,3,4,5,6\}\},\] com 24 resultados equiprováveis.

  2. \(X\in\{0,1,2\}\), com \[P(X=0)=\frac14,\qquad P(X=1)=\frac12,\qquad P(X=2)=\frac14.\] E \[P(Y=y)=\frac16,\qquad y=1,\dots,6.\] Como os experimentos são independentes, \[P(X=x,Y=y)=P(X=x)P(Y=y).\]

  3. Sim. A distribuição conjunta fatoriza nas marginais, então \(X\) e \(Y\) são independentes.

  4. Valores das probabilidades solicitadas: \[P(X=1)=\frac12,\qquad P(X\le 1)=\frac14+\frac12=\frac34,\] \[P(X=2,Y=3)=\frac14\cdot \frac16=\frac{1}{24},\] \[P(X=0,Y\ge 1)=P(X=0)=\frac14.\]

  5. Como a independência implica covariância nula, \[\operatorname{Cov}(X,Y)=0.\]

Comentário econômico: ausência de correlação, aqui por independência, sugere que sinal e estado não se movem juntos.

Exercício 3 (Morettin & Bussab, Cap. 8)

Tema: V.A. bidimensional contínua: marginais, probabilidade em região e esperança condicional.

Suponha que as v.a. \(X\) e \(Y\) tenham f.d.p. definida por \[f(x,y)= \begin{cases} e^{-(x+y)}, & x>0,\ y>0,\\ 0, & \text{nos demais casos.} \end{cases}\]

  1. Calcule as f.d.p. marginais de \(X\) e \(Y\).

  2. Calcule \(P(0<X<1,\ 1<Y<2)\).

  3. Calcule as esperanças condicionais \(E(Y\mid X=x)\) e \(E(X\mid Y=y)\).

Interpretação econômica pedida: interprete \(X\) e \(Y\) como durações/tempos de dois processos econômicos e discuta o que significa independência.

  1. Marginais \[f_X(x)=\int_0^\infty e^{-(x+y)}\,dy=e^{-x},\qquad x>0,\] \[f_Y(y)=\int_0^\infty e^{-(x+y)}\,dx=e^{-y},\qquad y>0.\]

  2. Como a conjunta fatoriza nas marginais \[f(x,y)=f_X(x)f_Y(y),\] segue que \(X\) e \(Y\) são independentes. Portanto, \[P(0<X<1,\ 1<Y<2)=P(0<X<1)\,P(1<Y<2).\] Logo, \[P(0<X<1)=1-e^{-1}, \qquad P(1<Y<2)=e^{-1}-e^{-2},\] e \[P(0<X<1,\ 1<Y<2)=(1-e^{-1})(e^{-1}-e^{-2}).\]

  3. Pela independência,

    \[f_{Y\mid X}(y\mid x)=f_Y(y), \qquad f_{X\mid Y}(x\mid y)=f_X(x).\]

Como ambas são Exponencial(1),

\[E(Y\mid X=x)=E(Y)=1, \qquad E(X\mid Y=y)=E(X)=1.\]

Comentário econômico: condicionar não muda a média quando os processos são independentes.

Exercício 4 (Morettin & Bussab, Cap. 8)

Tema: V.A. bidimensional contínua: densidades marginais e condicionais.

Calcule as densidades marginais e condicionais para a v.a. \((X,Y)\), com f.d.p. dada por \[f(x,y)=\frac{1}{64}(x+y), \qquad 0\le x\le 4,\ 0\le y\le 4.\]

Interpretação econômica pedida: interprete a condicional como a distribuição de \(X\) dado um nível de \(Y\) (por exemplo, risco dado o estado).

Marginais \[f_X(x)=\int_0^4 \frac{1}{64}(x+y)\,dy =\frac{1}{64}(4x+8) =\frac{x+2}{16},\qquad 0\le x\le 4,\] \[f_Y(y)=\int_0^4 \frac{1}{64}(x+y)\,dx =\frac{1}{64}(8+4y) =\frac{y+2}{16},\qquad 0\le y\le 4.\]

Condicionais \[f_{X\mid Y}(x\mid y)=\frac{f(x,y)}{f_Y(y)} =\frac{\frac{1}{64}(x+y)}{(y+2)/16} =\frac{x+y}{4(y+2)},\qquad 0\le x\le 4,\] \[f_{Y\mid X}(y\mid x)=\frac{f(x,y)}{f_X(x)} =\frac{\frac{1}{64}(x+y)}{(x+2)/16} =\frac{x+y}{4(x+2)},\qquad 0\le y\le 4.\]

Comentário econômico: a distribuição condicional fica mais inclinada para valores maiores quando o outro componente está alto.

Exercício 5 (Morettin & Bussab, Cap. 8)

Tema: V.A. bidimensional contínua: marginais, probabilidade acumulada e condicionais.

As v.a. \(X\) e \(Y\) têm distribuição conjunta dada por \[f(x,y)= \begin{cases} \frac{1}{8}x(x-y), & 0<x<2,\ -x<y<x,\\ 0, & \text{c.c.} \end{cases}\]

  1. Encontre as f.d.p. marginais de \(X\) e \(Y\).

  2. Encontre \(P(X\le 1)\).

  3. Calcule \(f_{X\mid Y}(x\mid y)\) e \(f_{Y\mid X}(y\mid x)\).

Interpretação econômica pedida: destaque como a restrição \(-x<y<x\) cria dependência econômica entre as variáveis.

  1. Marginal de \(X\) \[f_X(x)=\int_{-x}^{x}\frac18 x(x-y)\,dy =\frac{x^3}{4},\qquad 0<x<2.\] Para \(f_Y(y)\), dado \(y\in(-2,2)\), o suporte impõe \(x\in(|y|,2)\). Então, \[f_Y(y)=\int_{|y|}^{2}\frac18 x(x-y)\,dx,\qquad -2<y<2.\] Uma forma explícita é \[f_Y(y)= \begin{cases} \frac13-\frac{y}{4}+\frac{5y^3}{48}, & -2<y<0,\\[0.4em] \frac13-\frac{y}{4}+\frac{y^3}{48}, & 0\le y<2. \end{cases}\]

  2. Probabilidade acumulada \[P(X\le 1)=\int_0^1 \frac{x^3}{4}\,dx=\frac{1}{16}.\]

  3. Condicional de \(Y\) dado \(X=x\) \[f_{Y\mid X}(y\mid x)=\frac{f(x,y)}{f_X(x)} =\frac{\frac18 x(x-y)}{x^3/4} =\frac{x-y}{2x^2}, \qquad -x<y<x.\] E para \(X\) dado \(Y=y\) \[f_{X\mid Y}(x\mid y)=\frac{f(x,y)}{f_Y(y)}, \qquad |y|<x<2.\]

Comentário econômico: a faixa \(-x<y<x\) impõe uma restrição conjunta, gerando dependência entre as variáveis.

Exercício 6 (Morettin & Bussab, Cap. 8)

Tema: V.A. bidimensional discreta: distribuição conjunta (com/sem reposição), marginais, independência, média e variância.

Numa urna têm-se cinco tiras de papel, numeradas \(1,3,5,5,7\). Uma tira é sorteada e recolocada na urna; então, uma segunda tira é sorteada. Sejam \(X_1\) e \(X_2\) o primeiro e o segundo números sorteados.

  1. Determine a distribuição conjunta de \(X_1\) e \(X_2\).

  2. Obtenha as distribuições marginais de \(X_1\) e \(X_2\). Elas são independentes?

  3. Encontre a média e a variância de \(X_1\) e \(X_2\).

  4. Como seriam as respostas anteriores se a primeira tira de papel não fosse devolvida à urna antes da segunda extração?

Interpretação econômica pedida: interprete “com reposição” versus “sem reposição” como “choques independentes” versus “restrição de recursos”.

Com reposição, os valores possíveis são \(\{1,3,5,7\}\) com \[P(1)=\frac15,\qquad P(3)=\frac15,\qquad P(5)=\frac25,\qquad P(7)=\frac15.\]

  1. Como há reposição, a conjunta é o produto das marginais \[P(X_1=a,X_2=b)=P(X_1=a)P(X_2=b).\]

  2. As marginais de \(X_1\) e \(X_2\) são as mesmas acima e as variáveis são independentes.

  3. Para cada sorteio, \[E[X]=\frac{1+3+5+5+7}{5}=\frac{21}{5}=4{,}2,\] \[E[X^2]=\frac{1+9+25+25+49}{5}=\frac{109}{5}=21{,}8,\] \[\operatorname{Var}(X)=E[X^2]-E[X]^2=21{,}8-(4{,}2)^2=4{,}16=\frac{104}{25}.\] Logo, \[E[X_1]=E[X_2]=4{,}2,\qquad \operatorname{Var}(X_1)=\operatorname{Var}(X_2)=4{,}16.\]

  4. Sem reposição, as marginais continuam iguais, mas não há independência. Por exemplo, \[P(X_1=5,X_2=5)=\frac25\cdot \frac14=\frac{1}{10} \neq \frac25\cdot \frac25=\frac{4}{25}.\]

Comentário econômico: sem reposição surge dependência por escassez de recursos.

Exercício 7 (Morettin & Bussab, Cap. 8)

Tema: Esperança condicional: Lei das Expectativas Iteradas (LIE).

Prove a igualdade abaixo \[E[E(X\mid Y)] = E(X).\]

Interpretação econômica pedida: interprete como “média agregada = média das médias por grupo (tipo, setor, região)”.

Pela definição, \[E(X)=\int\!\!\int x\,f_{X,Y}(x,y)\,dx\,dy.\]

Além disso, \[E(X\mid Y=y)=\int x\,f_{X\mid Y}(x\mid y)\,dx.\]

Portanto, \[E[E(X\mid Y)] =\int E(X\mid Y=y)\,f_Y(y)\,dy.\]

Substituindo a expressão da condicional \[f_{X\mid Y}(x\mid y)=\frac{f_{X,Y}(x,y)}{f_Y(y)},\] temos \[E[E(X\mid Y)] = \int\left(\int x\,\frac{f_{X,Y}(x,y)}{f_Y(y)}\,dx\right)f_Y(y)\,dy = \int\!\!\int x\,f_{X,Y}(x,y)\,dx\,dy = E(X).\]

Comentário econômico: a média total é igual à média das médias por grupo.

Exercício 8 (Morettin & Bussab, Cap. 8)

Tema: Correlação: cálculo de \(\rho(X,Y)\) a partir de uma densidade conjunta.

Suponha que as v.a. \(X\) e \(Y\) tenham f.d.p. expressa como \[f(x,y)= \begin{cases} e^{-(x+y)}, & x>0,\ y>0,\\ 0, & \text{nos demais casos.} \end{cases}\]

  1. Calcule \(\rho(X,Y)\).

Interpretação econômica pedida: interprete \(\rho\) como o comovimento linear entre dois choques.

Como em Exercício 3, a conjunta fatoriza \[f(x,y)=f_X(x)f_Y(y),\] então \(X\) e \(Y\) são independentes. Logo, \[\operatorname{Cov}(X,Y)=0 \qquad \text{e} \qquad \rho(X,Y)=\frac{\operatorname{Cov}(X,Y)}{\sqrt{\operatorname{Var}(X)\operatorname{Var}(Y)}}=0.\]

Comentário econômico: ausência de comovimento linear entre os dois choques.

Exercício 9 (Morettin & Bussab, Cap. 8)

Tema: Correlação zero \(\neq\) independência (exemplo discreto).

O exercício a seguir ilustra que \(\rho=0\) não implica independência. Suponha que \((X,Y)\) tenha distribuição conjunta dada pela tabela abaixo.

\(x=-1\) \(x=0\) \(x=1\)
\(y=-1\) 1/8 1/8 1/8
\(y=0\) 1/8 0 1/8
\(y=1\) 1/8 1/8 1/8
  1. Mostre que \(E(XY)=E(X)E(Y)\), donde \(\rho=0\).

  2. Justifique por que \(X\) e \(Y\) não são independentes.

Interpretação econômica pedida: dê um exemplo econômico em que variáveis com correlação zero ainda possam ser dependentes por não linearidade ou por restrições.

  1. Por simetria, \[E(X)=0,\qquad E(Y)=0.\] Além disso, os termos com \(xy\) se cancelam e resulta \[E(XY)=0.\] Portanto, \[E(XY)=E(X)E(Y)=0,\] donde a correlação é nula \[\rho=0.\]

  2. Não são independentes, pois por exemplo \[P(X=0,Y=0)=0,\] enquanto \[P(X=0)=\frac14,\qquad P(Y=0)=\frac14,\] de modo que a igualdade falha \[P(X=0)P(Y=0)=\frac{1}{16}\neq 0.\]

Comentário econômico: correlação zero não exclui dependência quando há restrições ou relações não lineares.

Exercício 10 (Morettin & Bussab, Cap. 8)

Tema: Independência, covariância e variância de soma.

Uma moeda perfeita é lançada três vezes. Sejam as variáveis abaixo \[X=\text{número de caras nos dois primeiros lançamentos},\] \[Y=\text{número de caras no terceiro lançamento},\] \[S=\text{número total de caras}.\]

  1. Usando a distribuição conjunta de \((X,Y)\), verifique se \(X\) e \(Y\) são independentes. Qual é a covariância entre elas?

  2. Calcule a média e a variância das três variáveis definidas.

  3. Existe alguma relação entre os parâmetros encontrados em (b)? Por quê?

Interpretação econômica pedida: conecte \(S=X+Y\) à soma de choques (componentes) e à decomposição de risco.

  1. \(X\) depende apenas dos dois primeiros lançamentos e \(Y\) apenas do terceiro. Logo, são independentes e a covariância é nula \[\operatorname{Cov}(X,Y)=0.\]

  2. Como \(X\sim \text{Bin}(2,1/2)\), temos \[E[X]=2\cdot \frac12=1, \qquad \operatorname{Var}(X)=2\cdot \frac12\cdot \frac12=\frac12.\] Como \(Y\sim \text{Bernoulli}(1/2)\), segue que \[E[Y]=\frac12, \qquad \operatorname{Var}(Y)=\frac14.\] Como \(S=X+Y\), temos \[E[S]=E[X]+E[Y]=\frac32,\] \[\operatorname{Var}(S)=\operatorname{Var}(X)+\operatorname{Var}(Y)+2\operatorname{Cov}(X,Y) =\frac12+\frac14=\frac34.\]

  3. Sim. Como \(S=X+Y\) e \(\operatorname{Cov}(X,Y)=0\), a variância total é a soma das variâncias dos componentes.

Comentário econômico: o risco total é a soma dos riscos dos componentes quando não há comovimento.

Exercício 11 (Morettin & Bussab, Cap. 8)

Tema: Correlação amostral (Pearson): medida de associação linear em dados.

Depois de um tratamento, seis operários submeteram-se a um teste e, mais tarde, mediu-se a produtividade de cada um. A partir da tabela, calcule o coeficiente de correlação entre nota e produtividade.

Operário 1 2 3 4 5 6
Teste 9 17 20 19 20 23
Produtividade 22 34 29 33 42 32

Interpretação econômica pedida: interprete o sinal e a magnitude como evidência (ou não) de associação entre qualificação e produtividade.

Médias amostrais \[\bar x=18,\qquad \bar y=32.\]

Calcule as somas \[S_{xy}=\sum_{i=1}^{6}(x_i-\bar x)(y_i-\bar y)=103,\] \[S_{xx}=\sum_{i=1}^{6}(x_i-\bar x)^2=116,\] \[S_{yy}=\sum_{i=1}^{6}(y_i-\bar y)^2=214.\]

Logo, a correlação amostral é \[r=\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}} =\frac{103}{\sqrt{116\cdot 214}} \approx 0{,}654.\]

Comentário econômico: há associação linear positiva moderada entre nota e produtividade, sem implicar causalidade.


  1. A review of multivariate distributions for count data derived from the Poisson distribution↩︎

  2. Selvan, R. 2015. Bayesian tracking of multiple point targets using Expectation Maximization↩︎

  3. A review of multivariate distributions for count data derived from the Poisson distribution↩︎

  4. Quantitative precipitation estimation with weather radar using a data- and information-based approach↩︎