Aula 16: Regressão Múltipla
Ano da construção
Área total do imóvel
Número de quartos
Numero de suítes
Quantos aptos por andar?
Possui salão de festas? 0 ou 1
Possui piscina? 0 ou 1
Ao todo, 30 características numéricas para cada um dos 1500 imoveis
\[Y = \begin{bmatrix} y_1\\ y_2\\ \vdots\\ y_{1459} \\ y_{1500} \end{bmatrix} \]
\[ X = \begin{bmatrix} renda_1 & área_1 & \ldots & salão_1\\ renda_2 & área_2 & \ldots & salão_2\\ \vdots & \vdots & \vdots & \vdots \\ renda_{1499} & área_{1499} & \ldots & salão_{1499}\\ renda_{1500} & área_{1500} & \ldots & salão_{1500}\\ \end{bmatrix} \] - 30 características de 1500 imóveis (matrix \(X\) de dimensão \(1500\times 30\))
\[\begin{align} y_1 &\approx a + b\, área_1 + c \, idade_1 + \ldots \\ y_2 &\approx a + b\, área_2 + c \, idade_2 + \ldots \\ \vdots \\ y_{1500} &\approx a + b\, área_{1500} + c \, idade_{1500} + \ldots \\ \end{align}\]
\[\begin{align} y_1 &\approx b_0 + b_1\, área_1 + b_2 \, idade_1 + \ldots + b_{30} \, salão_1\\ y_2 &\approx b_0 + b_!\, área_2 + b_2 \, idade_2 + \ldots + b_{2} \, salão_2\\ \vdots \\ y_{1500} &\approx b_0 + b_1\, área_{1500} + b_2 \, idade_{1500} + \ldots + b_{30} \, salão_{1500}\\ \end{align}\]
\[ Y = \begin{bmatrix} y_1\\ y_2\\ \vdots \\ y_{1499}\\ y_{1500} \end{bmatrix} \approx b_0 \begin{bmatrix} 1\\1\\\vdots\\1\\1 \end{bmatrix} + b_1 \begin{bmatrix} área_1\\ área_2\\ \vdots \\ área_{1499}\\ área_{1500} \end{bmatrix} + \ldots + b_{30} \begin{bmatrix} salão_1 \\ salão_2 \\ \vdots \\ salão_{1499} \\ salão_{1500} \end{bmatrix} \]
Nosso problema é encontrar os 31 coeficientes \(b_0, b_1, b_2, \ldots, b_{30}\) que tornem a aproximação acima a melhor possível
\[ Y = \begin{bmatrix} y_1\\ y_2\\ \vdots \\ y_{1499}\\ y_{1500} \end{bmatrix} \approx b_0 \begin{bmatrix} 1\\1\\\vdots\\1\\1 \end{bmatrix} + b_1 \begin{bmatrix} área_1\\ área_2\\ \vdots \\ área_{1499}\\ área_{1500} \end{bmatrix} + \ldots + b_{30} \begin{bmatrix} salão_1 \\ salão_2 \\ \vdots \\ salão_{1499} \\ salão_{1500} \end{bmatrix} \]
Ou seja, encontrar \(b_0, b_1, b_2, \ldots, b_{30}\) tais que
\[ Y = \begin{bmatrix} y_1\\ y_2\\ \vdots \\ y_{1499}\\ y_{1500} \end{bmatrix} \approx \begin{bmatrix} 1 & área_1 & \ldots & salão_1\\ 1 & área_2 & \ldots & salão_2\\ \vdots & \vdots & \ddots& \vdots\\ 1 & área_{1499} & \ldots & salão_{1499}\\ 1 & área_{1500} & \ldots & salão_{1500}\\ \end{bmatrix} \begin{bmatrix} b_0\\ b_1 \\ \vdots \\ b_{29}\\ b_{30} \end{bmatrix} = Xb \]
onde \(b = (b_0,\ldots, b_{30})^\top\)
Temos o problema \[Ax \approx b\]
\[A \underbrace{x}_{\text{coeficientes}} = b + \underbrace{e}_{\text{resíduos}}\]
Ou seja, o erro é dado por \[e = Ax+b\]
Consideremos \(\hat{x}\) como a melhor solução possível, ou seja \[e = A\hat{x} - b\] é o menor erro possível
Perceba que \(A\hat{x}=p\), onde \(p\) é um vetor formado pela combinação linear das colunas de \(A\), ou seja, \(p\in C(A)\)
\(Ax=p\) será perpendicular ao vetor \(e\). Sendo assim, \(p^\top e = 0\). Como \(e = A\hat{x}-b\) temos
\[\begin{align} (A\hat{x})^\top (A\hat{x}-b) &= 0 \\ x^\top \underbrace{A^\top (A\hat{x} - b)}_{0} &= 0 \end{align}\]
\[ A^\top A \hat{x} - A^\top = 0\] ou
\[ A^\top A \hat{x} = A^\top b\]
\[ \begin{bmatrix} n & \sum x_{i1} & \sum x_{i2} & \ldots & \sum x_{i,p-1}\\ \sum x_{i1} & \sum x_{i1}x_{i1} & \sum x_{i2}x_{i1} & \ldots & \sum x_{i,p-1}x_{i1}\\ \sum x_{i2} & \sum x_{i1}x_{i2} & \sum x_{i2}x_{i2} & \ldots & \sum x_{i,p-1}x_{i2}\\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \sum x_{i,p-1} & \sum x_{i1}x_{i,p-1} & \sum x_{i2}x_{i,p-1} &\ldots & \sum x_{i,p-1}x_{i,p-1} \end{bmatrix} \begin{bmatrix} b_0 \\ b_1 \\ b_2 \\ \vdots \\ b_{p-1} \end{bmatrix} \begin{bmatrix} \sum y_{i}\\ \sum x_{i1}y_i \\ \sum x_{i2}y_{i}\\ \vdots \\ \sum x_{i,p-1}y_i \end{bmatrix} = \begin{bmatrix} \end{bmatrix} \]
Onde o vetor solução \(b\) fornece os estimadores de mínimos quadrados dos parâmetros \(\beta_i\) da equação de regressão \(y(x_1, x_2, \ldots, x_{p-1}) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \ldots + \beta_{p-1}x_{p-1} + e\)