2 - Engenharia de Golems¶

Aula - Statistical Rethinking Winter 2019 Lecture 02

Esse capítulo terá dois objetivos principais:

Construir a intuição de como a atualização funciona, ou seja, como os Golems aprendem com a experiência.
Apresentar uma intuição sobre como construir esses modelos.

Como iremos usar a probabilidade para fazer um típico modelo estatístico?

Design o modelo: Usando uma base científica e procurando de onde os dados nascem.
Condicionar aos dados: Atualização dos modelos com os dados. Na atualização bayesiana temos apenas um modo de fazer isso, pois há apenas um tipo de estimador bayesiano.
Avaliar como está o modelo: Temos que ser críticos com o nosso modelo, por causa da distinção entre o pequeno mundo de Colombo e o Mundo Real.

Exemplo: Como é feito o processo da criação dos dados?

No curso, o prof. Richard lançou um Globo Terrestre para os alunos. Cada aluno que segurou o globo deveria observar, em sua mão direita, se seu dedo indicador estava sobre algum dos oceanos (representado como \(W\), water) ou sobre a terra (\(L\), land), e registrar esses dados.

Esse é o processo de como os dados estão nascendo!

Suponha que a partir dos lançamentos, nós obtemos a sequência:

\[ [W, L, W, W, W, L, W, L, W] \]

O que iremos fazer aqui é estimar a proporção da superfície da Terra que contém água.

Pare pensar antes de continuar:

Qual é o número de vezes que precisamos jogar o globo, para obter uma certa precisão da estimativa da proporção de água na superfície do planeta?

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

 # Alterando a cor de fundo, para ficar mais elegante.
plt.rcParams['axes.facecolor'] = 'lightgray' 

# Design do Modelo

amostras = ['W', 'L', 'W', 'W', 'W', 'L', 'W', 'L'] # Amostra a partir dos lançamentos do globo.

amostras = [1 if amostra == 'W' else 0 for amostra in amostras]  # Transformando os dados em números. [1 = W; 0 = L]

Quando o globo foi lançado, a probabilidade do dedo indicador “cair na água”, em qualquer um dos lançamentos, deveria ser proporcional a proporção de água que tem na superfície do planeta. Isso é como jogar uma moeda para sortear cara ou coroa. Mas uma moeda com muitos lados. O ambiente é determinístico, porém caótico para nós. Assim, pequenas diferenças nas condições iniciais, geram resultados essencialmente aleatórios.

Para nós, na escala em que vivemos, o ambiente é determinístico. Mas é um sistema caótico e, portanto, aleatório. Pois não temos a capacidade de compreender o sistema todo e, por isso, somos ignorantes a seu respeito.

O simples lançamento de moedas, para nós, é considerado um bom sistema de aleatorização. Não podemos medir a velocidade inicial e também a posição do giro bem o suficiente para prever como cairá a moeda, essa é a única razão!

Então dizemos que há um número aleatório que gerado, mas que a proporção dele deve ter uma probabilidade \(p\) da superfície da Terra ser coberta por água.

Onde \(p\) é a proporção de água que cobre a superfície da Terra. Por isso não importa a ordem dos lançamentos, já que a probabilidade se mantém a mesma durante todo o processo de amostragem.

Essa é uma suposição, precisamos demonstrar e sermos críticos com relação a isso. Em capítulos futuros iremos aprender como fazer um cálculo para inspecionar essa suposição.

Esse é um dos exemplos mais simples que podemos iniciar a nossa apresentação de como construir um modelo bayesiano.

Em comparação com o exemplo anterior, a bolsa que contém quarto bolinhas coloridas, esse exemplo pode ser imaginado também como uma bolsa (ou seja, o planeta é uma bolsa) e que contém a quantidade infinitas bolinhas (ou seja, todo o par de *latitude* e *longitute* é representando como uma bolinha dentro da bolsa). E, assim como na bolsa, o planeta tem dois tipos de bolinhas coloridas: bolas \(Azuis\) e bolas \(Brancas\), ou melhor, Água (W) e Terra (L),

Statistical Rethinking

2 - Engenharia de Golems¶

Condicionando o modelo aos dados¶

Criticando o modelo¶

Construindo o framework de causalidade¶

Definição de W:¶

Distribuição de W (Verossimilhança)¶

Probabilidade Priori (\(p\))¶

Definindo uma linguagem¶

Probabilidade à Posteriori¶

Posteriori, Priori e Verossimilhança¶

Cálculo da Posteriori¶

Via Grade de Aproximação (Grid Approximation)¶

Amostras a partir da Posteriori¶

Calculando coisas com a nossa amostra da Posteriori¶

Falando um pouco sobre intervalos¶

Checagem da predição do modelo¶

Vamos entender como fazer simulações a partir da posteriori¶

Resumo¶