Lý thuyết đằng sau đối số trọng số trong R khi sử dụng lm ()

Sau một năm học ở trường, sự hiểu biết của tôi về "bình phương nhỏ nhất có trọng số" như sau: let , là một số ma trận thiết kế , là một vectơ tham số, là một vectơ lỗi sao cho , trong đó và . Sau đó, mô hình $\mathbf{y} \in \mathbb{R}^n$ $\mathbf{X}$ $n \times p$ $\boldsymbol\beta \in \mathbb{R}^p$ $\boldsymbol\epsilon \in \mathbb{R}^n$ $\boldsymbol\epsilon \sim \mathcal{N}(\mathbf{0}, \sigma^2\mathbf{V})$ $\mathbf{V} = \text{diag}(v_1, v_2, \dots, v_n)$ $\sigma^2 > 0$

y = X β + ϵ

$\mathbf{y} = \mathbf{X}\boldsymbol\beta + \boldsymbol\epsilon$ theo các giả định được gọi là mô hình "bình phương nhỏ nhất có trọng số". Vấn đề của WLS cuối cùng là tìm

\arg min_{β} {(y - X β)}^{T} V^{- 1} (y - X β) .

$\begin{equation} \arg\min_{\boldsymbol \beta}\left(\mathbf{y}-\mathbf{X}\boldsymbol\beta\right)^{T}\mathbf{V}^{-1}\left(\mathbf{y}-\mathbf{X}\boldsymbol\beta\right)\text{.} \end{equation}$ Giả sử

y = {[\begin{matrix} y_{1} & \dots & y_{n} \end{matrix}]}^{T}

$\mathbf{y} = \begin{bmatrix} y_1 & \dots & y_n\end{bmatrix}^{T}$ ,

β = {[\begin{matrix} β_{1} & \dots & β_{p} \end{matrix}]}^{T}

$\boldsymbol\beta = \begin{bmatrix} \beta_1 & \dots & \beta_p\end{bmatrix}^{T}$ và

X = [\begin{matrix} x_{11} & \dots & x_{1 p} \\ x_{21} & \dots & x_{2 p} \\ ⋮ & ⋮ & ⋮ \\ x_{n 1} & \dots & x_{n p} \end{matrix}] = [\begin{matrix} x_{1}^{T} \\ x_{2}^{T} \\ ⋮ \\ x_{n}^{T} \end{matrix}] .

$\mathbf{X} = \begin{bmatrix} x_{11} & \cdots & x_{1p} \\ x_{21} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots \\ x_{n1} & \cdots & x_{np} \end{bmatrix} = \begin{bmatrix} \mathbf{x}_{1}^{T} \\ \mathbf{x}_{2}^{T} \\ \vdots \\ \mathbf{x}_{n}^{T} \end{bmatrix}\text{.}$

x_{i}^{T} β \in R^{1}

$\mathbf{x}_i^{T}\boldsymbol\beta\in \mathbb{R}^1$ , vì vậy

y - X β = [\begin{matrix} y_{1} - x_{1}^{T} β \\ y_{2} - x_{2}^{T} β \\ ⋮ \\ y_{n} - x_{n}^{T} β \end{matrix}] .

$\mathbf{y}-\mathbf{X}\boldsymbol\beta = \begin{bmatrix} y_1-\mathbf{x}_{1}^{T}\boldsymbol\beta \\ y_2-\mathbf{x}_{2}^{T}\boldsymbol\beta \\ \vdots \\ y_n-\mathbf{x}_{n}^{T}\boldsymbol\beta \end{bmatrix}\text{.}$ Điều này mang lại cho

\begin{aligned} (y - X β)^{T} V^{- 1} & = [\begin{matrix} y_{1} - x_{1}^{T} β & y_{2} - x_{2}^{T} β & \dots & y_{n} - x_{n}^{T} β \end{matrix}] diag (v_{1}^{- 1}, v_{2}^{- 1}, \dots, v_{n}^{- 1}) \\ = [\begin{matrix} v_{1}^{- 1} (y_{1} - x_{1}^{T} β) & v_{2}^{- 1} (y_{2} - x_{2}^{T} β) & \dots & v_{n}^{- 1} (y_{n} - x_{n}^{T} β) \end{matrix}] \end{aligned}

$\begin{align} (\mathbf{y}-\mathbf{X}\boldsymbol\beta)^{T}\mathbf{V}^{-1} &= \begin{bmatrix} y_1-\mathbf{x}_{1}^{T}\boldsymbol\beta &y_2-\mathbf{x}_{2}^{T}\boldsymbol\beta & \cdots & y_n-\mathbf{x}_{n}^{T}\boldsymbol\beta \end{bmatrix}\text{diag}(v_1^{-1}, v_2^{-1}, \dots, v_n^{-1}) \\ &= \begin{bmatrix} v_1^{-1}(y_1-\mathbf{x}_{1}^{T}\boldsymbol\beta) &v_2^{-1}(y_2-\mathbf{x}_{2}^{T}\boldsymbol\beta) & \cdots & v_n^{-1}(y_n-\mathbf{x}_{n}^{T}\boldsymbol\beta) \end{bmatrix} \end{align}$ v_n ^ {- 1} (y_n- \ mathbf {x} _ {n} ^ {T} \ boldsymbol \ beta) \ end {bmatrix} \ end {align} do đó cho

\arg min_{β} {(y - X β)}^{T} V^{- 1} (y - X β) = \arg min_{β} \sum_{i = 1}^{n} v_{i}^{- 1} (y_{i} - x_{i}^{T} β)^{2} .

β

$\boldsymbol\beta$ được ước tính bằng cách sử dụng

\hat{β} = (X^{T} V^{- 1} X)^{- 1} X^{T} V^{- 1} y .

$\hat{\boldsymbol\beta} = (\mathbf{X}^{T}\mathbf{V}^{-1}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{V}^{-1}\mathbf{y}\text{.}$ Đây là phạm vi kiến thức tôi quen thuộc. Tôi chưa bao giờ được dạy cách chọn

v_{1}, v_{2}, \dots, v_{n}

$v_1, v_2, \dots, v_n$ , mặc dù có vẻ như, đánh giá ở đây , thường là

Var (ϵ) = diag (σ_{1}^{2}, σ_{2}^{2}, \dots, σ_{n}^{2})

$\text{Var}(\boldsymbol\epsilon) = \text{diag}(\sigma^2_1, \sigma^2_2, \dots, \sigma^2_n)$ , mà làm cho ý nghĩa trực quan. (Đưa ra trọng số thay đổi cao ít trọng lượng hơn trong bài toán WLS và đưa ra các quan sát với trọng số ít thay đổi hơn.)

Điều tôi đặc biệt tò mò là cách Rxử lý các trọng số trong lm()hàm khi các trọng số được gán là số nguyên. Từ việc sử dụng ?lm:

Không NULLtrọng số có thể được sử dụng để chỉ ra rằng các quan sát khác nhau có phương sai khác nhau (với các giá trị về trọng số tỷ lệ nghịch với phương sai); hoặc tương đương, khi các yếu tố của trọng số là số nguyên dương , rằng mỗi phản hồi là giá trị trung bình của các quan sát trọng số đơn vị (bao gồm cả trường hợp có các quan sát bằng và dữ liệu đã được tóm tắt). $w_i$ $y_i$ $w_i$ $w_i$ $y_i$

Tôi đã đọc lại đoạn này nhiều lần và nó không có ý nghĩa gì với tôi. Sử dụng khung mà tôi đã phát triển ở trên, giả sử tôi có các giá trị mô phỏng sau:

x <- c(0, 1, 2)
y <- c(0.25, 0.75, 0.85)
weights <- c(50, 85, 75)

lm(y~x, weights = weights)

Call:
lm(formula = y ~ x, weights = weights)

Coefficients:
(Intercept)            x  
     0.3495       0.2834

Sử dụng khung mà tôi đã phát triển ở trên, các tham số này được dẫn xuất như thế nào? Đây là nỗ lực của tôi khi làm điều này bằng tay: giả sử , chúng tôi có và thực hiện điều này trong cung cấp (lưu ý rằng tính không đảo ngược không hoạt động trong trường hợp này, vì vậy tôi đã sử dụng một nghịch đảo tổng quát): $\mathbf{V} = \text{diag}(50, 85, 75)$

\begin{aligned} [\begin{matrix} {\hat{β}}_{0} \\ {\hat{β}}_{1} \end{matrix}] = \\ {([\begin{matrix} 1 & 1 \\ 1 & 1 \\ 1 & 1 \end{matrix}] diag (1 / 50, 1 / 85, 1 / 75) {[\begin{matrix} 1 & 1 \\ 1 & 1 \\ 1 & 1 \end{matrix}]}^{T})}^{- 1} {[\begin{matrix} 1 & 1 \\ 1 & 1 \\ 1 & 1 \end{matrix}]}^{T} diag (1 / 50, 1 / 85, 1 / 75) [\begin{matrix} 0.25 \\ 0.75 \\ 0.85 \end{matrix}] \end{aligned}

$\begin{align}&\begin{bmatrix} \hat\beta_0 \\ \hat\beta_1 \end{bmatrix} = \\ &\left(\begin{bmatrix} 1 & 1\\ 1 & 1\\ 1 & 1 \end{bmatrix}\text{diag}(1/50, 1/85, 1/75)\begin{bmatrix} 1 & 1\\ 1 & 1\\ 1 & 1 \end{bmatrix}^{T} \right)^{-1}\begin{bmatrix} 1 & 1\\ 1 & 1\\ 1 & 1 \end{bmatrix}^{T}\text{diag}(1/50, 1/85, 1/75)\begin{bmatrix} 0.25 \\ 0.75 \\ 0.85 \end{bmatrix} \end{align}$ R

X <- matrix(rep(1, times = 6), byrow = T, nrow = 3, ncol = 2)
V_inv <- diag(c(1/50, 1/85, 1/75))
y <- c(0.25, 0.75, 0.85)

library(MASS)
ginv(t(X) %*% V_inv %*% X) %*% t(X) %*% V_inv %*% y

         [,1]
[1,] 0.278913
[2,] 0.278913

Chúng không khớp với các giá trị từ lm()đầu ra. Tôi đang làm gì sai?

r linear-model weighted-regression

— Clarinetist
nguồn

Ma trận phải là không phải Ngoài ra, bạn nên , không . $X$

[\begin{matrix} 1 & 0 \\ 1 & 1 \\ 1 & 2 \end{matrix}],

$\begin{bmatrix} 1 & 0\\ 1 & 1\\ 1 & 2 \end{bmatrix},$

[\begin{matrix} 1 & 1 \\ 1 & 1 \\ 1 & 1 \end{matrix}] .

$\begin{bmatrix} 1 & 1\\ 1 & 1\\ 1 & 1 \end{bmatrix}.$ V_invdiag(weights)diag(1/weights)

x <- c(0, 1, 2)
y <- c(0.25, 0.75, 0.85)
weights <- c(50, 85, 75)
X <- cbind(1, x)

> solve(t(X) %*% diag(weights) %*% X, t(X) %*% diag(weights) %*% y)
       [,1]
  0.3495122
x 0.2834146

— đánh dấu999
nguồn

Cảm ơn bạn đã xóa ma trận thiết kế không chính xác, đặc biệt! Tôi khá gỉ về vật liệu này. Vì vậy, như một câu hỏi cuối cùng, điều này có nghĩa là trong các giả định của WLS?

Var (ϵ) = diag (1 / weights)

$\text{Var}(\boldsymbol\epsilon) = \text{diag}(1/\text{weights})$

— Clarinetist

Có, mặc dù các trọng số chỉ phải tỷ lệ với 1 / phương sai, không nhất thiết phải bằng nhau. Ví dụ, nếu bạn sử dụng weights <- c(50, 85, 75)/2trong ví dụ của mình, bạn sẽ nhận được kết quả tương tự.

— đánh dấu999

Để trả lời chính xác hơn, hồi quy bình phương nhỏ nhất có trọng số sử dụng weightstrong Rđưa ra các giả định sau: giả sử chúng ta có weights = c(w_1, w_2, ..., w_n). Đặt , là ma trận thiết kế , là một vectơ tham số và là một vectơ lỗi với mean và ma trận phương sai , trong đó . Sau đó, theo các bước tương tự của đạo hàm trong bài viết gốc, chúng tôi có $\mathbf{y} \in \mathbb{R}^n$ $\mathbf{X}$ $n \times p$ $\boldsymbol\beta\in\mathbb{R}^p$ $\boldsymbol\epsilon \in \mathbb{R}^n$ $\mathbf{0}$ $\sigma^2\mathbf{V}$ $\sigma^2 > 0$

V = diag (1 / w_{1}, 1 / w_{2}, \dots, 1 / w_{n}) .

$\mathbf{V} = \text{diag}(1/w_1, 1/w_2, \dots, 1/w_n)\text{.}$

\begin{aligned} \arg min_{β} {(y - X β)}^{T} V^{- 1} (y - X β) & = \arg min_{β} \sum_{i = 1}^{n} (1 / w_{i})^{- 1} (y_{i} - x_{i}^{T} β)^{2} \\ = \arg min_{β} \sum_{i = 1}^{n} w_{i} (y_{i} - x_{i}^{T} β)^{2} \end{aligned}

$\begin{align} \arg\min_{\boldsymbol \beta}\left(\mathbf{y}-\mathbf{X}\boldsymbol\beta\right)^{T}\mathbf{V}^{-1}\left(\mathbf{y}-\mathbf{X}\boldsymbol\beta\right)&= \arg\min_{\boldsymbol \beta}\sum_{i=1}^{n}(1/w_i)^{-1}(y_i-\mathbf{x}^{T}_i\boldsymbol\beta)^2 \\ &= \arg\min_{\boldsymbol \beta}\sum_{i=1}^{n}w_i(y_i-\mathbf{x}^{T}_i\boldsymbol\beta)^2 \end{align}$ và được ước tính bằng cách sử dụng từ GLS các giả định .

β

$\boldsymbol\beta$

\hat{β} = (X^{T} V^{- 1} X)^{- 1} X^{T} V^{- 1} y

$\hat{\boldsymbol\beta} = (\mathbf{X}^{T}\mathbf{V}^{-1}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{V}^{-1}\mathbf{y}$

— Clarinetist
nguồn