Kiểm tra bình phương hai mẫu

Câu hỏi này là từ cuốn sách của Van der Vaart, Asymptotic Statistics, pg. 253. # 3:

Giả sử và là các vectơ đa thức độc lập với các tham số và . Theo giả thuyết null mà chỉ ra rằng $\mathbf{X}_m$ $\mathbf{Y}_n$ $(m,a_1,\ldots,a_k)$ $(n,b_1,\ldots,b_k)$ $a_i=b_i$

\sum_{i = 1}^{k} \frac{(X_{m, i} - m {\hat{c}}_{i})^{2}}{m {\hat{c}}_{i}} + \sum_{i = 1}^{k} \frac{(Y_{n, i} - n {\hat{c}}_{i})^{2}}{n {\hat{c}}_{i}}

$\sum_{i=1}^k \dfrac{(X_{m,i} - m\hat{c}_i)^2}{m\hat{c}_i} + \sum_{i=1}^k \dfrac{(Y_{n,i} - n\hat{c}_i)^2}{n\hat{c}_i}$ có phân phối . trong đó .

χ_{k - 1}^{2}

$\chi^2_{k-1}$

{\hat{c}}_{i} = (X_{m, i} + Y_{n, i}) / (m + n)

$\hat{c}_i = (X_{m,i} + Y_{n,i})/(m+n)$

Tôi cần một số trợ giúp để bắt đầu. Chiến lược ở đây là gì? Tôi đã có thể kết hợp hai triệu hồi thành:

\sum_{i = 1}^{k} \frac{(m Y_{n, i} - n X_{m, i})^{2}}{m n (m + n) {\hat{c}}_{i}}

$\sum_{i=1}^k \dfrac{(mY_{n,i} - nX_{m,i})^2}{mn(m+n)\hat{c}_i}$

nhưng điều này sẽ không hoạt động với CLT vì nó là sự kết hợp có trọng số của và . Không chắc chắn nếu đây là con đường đúng. Bất kỳ đề xuất? $X_m$ $Y_n$

EDIT: nếu thì nó khá dễ vì chúng ta có $m=n$

\begin{aligned} \frac{m Y_{n} - n X_{m}}{\sqrt{m n (m + n)}} & = \frac{Y_{n} - X_{m}}{\sqrt{(m + n)}} \end{aligned}

$\begin{align*} \dfrac{mY_{n} - nX_{m}}{\sqrt{mn(m+n)}} &= \dfrac{Y_{n} - X_{m}}{\sqrt{(m+n)}} \end{align*}$

trong đó tử số có thể được xem là tổng của sự khác biệt của các biến Đa biến để chúng ta có thể áp dụng CLT và sau đó kết thúc nó với Định lý 17.2 từ cùng chương đó. Tuy nhiên, tôi không thể tìm ra cách giải quyết vấn đề này trong tình huống này với các cỡ mẫu khác nhau. Có ai giúp đỡ không? $(1,a_1,\ldots,a_k)$

Liên kết đến chương 17 của van der Vaart của Google Sách

— bdeonovic
nguồn

Đầu tiên một số ký hiệu. Đặt và biểu thị chuỗi phân loại được liên kết với và , tức là . Đặt . Hãy xem xét các binerifying started trong đó là Delta của Kronecker. Vì vậy chúng tôi có $\left\{X_t\right\}_{1,\ldots,m}$ $\left\{Y_t\right\}_{1,\ldots,n}$ $\mathbf{X}_m$ $\mathbf{Y}_n$ $\text{Pr}\left\{X_t = i\right\} = a_i, \text{Pr}\left\{Y_t = i\right\} = b_i$ $N=n+m$

\begin{aligned} X_{i}^{*} & = (X_{1, i}^{*}, \dots, X_{N, i}^{*}) = (δ_{i, X_{1}}, \dots, δ_{i, X_{n}}, 0, \dots, 0) \\ Y_{i}^{*} & = (Y_{1, i}^{*}, \dots, Y_{N, i}^{*}) = (0, \dots, 0, δ_{i, Y_{1}}, \dots, δ_{i, Y_{n}}) \end{aligned}

$\begin{align*} \mathbf{X}_{i}^* &= (X^*_{1,i},\ldots,X_{N,i}^*) = (\delta_{i,X_1},\ldots,\delta_{i,X_n},0,\ldots,0)\\ \mathbf{Y}_{i}^* &= (Y^*_{1,i},\ldots,Y_{N,i}^*)= (0,\ldots,0,\delta_{i,Y_1},\ldots,\delta_{i,Y_n})\\ \end{align*}$

δ_{i, j} \equiv 1_{i = j}

$\delta_{i,j}\equiv \mathbf{1}_{i=j}$

X_{m, i} = \sum_{t = 1}^{N} X_{t, i}^{*} = \sum_{t = 1}^{m} δ_{i, X_{t}} Y_{n, i} = \sum_{t = 1}^{N} Y_{t, i}^{*} = \sum_{t = 1}^{n} δ_{i, Y_{t}}

$X_{m,i} = \sum_{t=1}^{N} X_{t,i}^* = \sum_{t=1}^m \delta_{i,X_t} \qquad Y_{n,i} = \sum_{t=1}^{N} Y_{t,i}^* = \sum_{t=1}^n \delta_{i,Y_t}$

Bây giờ chúng ta bắt đầu bằng chứng. Đầu tiên chúng tôi kết hợp hai triệu tập của thống kê kiểm tra. Lưu ý rằng Vì vậy, chúng tôi có thể viết thống kê kiểm tra là

\begin{aligned} X_{m, i} - m {\hat{c}}_{i} & = \frac{(n + m) X_{m, i} - m (X_{m, i} + Y_{n, i})}{n + m} \\ = \frac{n X_{m, i} - m Y_{n, i}}{n + m} \\ Y_{n, i} - n {\hat{c}}_{i} & = \frac{(n + m) Y_{n, i} - n (X_{m, i} + Y_{n, i})}{n + m} \\ = \frac{m Y_{n, i} - n X_{m, i}}{n + m} \end{aligned}

$\begin{align*} X_{m,i} - m\hat{c}_i &= \dfrac{(n+m)X_{m,i} - m(X_{m,i} + Y_{n,i})}{n+m}\\ &= \dfrac{nX_{m,i} - mY_{n,i}}{n+m}\\ Y_{n,i} - n\hat{c}_i &= \dfrac{(n+m)Y_{n,i} - n(X_{m,i} + Y_{n,i})}{n+m}\\ &= \dfrac{mY_{n,i} - nX_{m,i}}{n+m} \end{align*}$

\begin{aligned} S & = \sum_{i = 1}^{k} \frac{(X_{m, i} - m {\hat{c}}_{i})^{2}}{m {\hat{c}}_{i}} + \sum_{i = 1}^{k} \frac{(Y_{n, i} - n {\hat{c}}_{i})^{2}}{n {\hat{c}}_{i}} \\ = \sum_{i = 1}^{k} \frac{(n X_{m, i} - m Y_{n, i})^{2}}{(n + m)^{2} m {\hat{c}}_{i}} + \sum_{i = 1}^{k} \frac{(n X_{m, i} - m Y_{n, i})^{2}}{(n + m)^{2} n {\hat{c}}_{i}} \\ = \sum_{i = 1}^{k} \frac{(n X_{m, i} - m Y_{n, i})^{2}}{n m (n + m) {\hat{c}}_{i}} \end{aligned}

$\begin{align*} S &= \sum_{i=1}^k \dfrac{(X_{m,i} - m\hat{c}_i)^2}{m\hat{c}_i} + \sum_{i=1}^k \dfrac{(Y_{n,i} - n\hat{c}_i)^2}{n\hat{c}_i}\\ &= \sum_{i=1}^k \dfrac{(nX_{m,i} - mY_{n,i})^2}{(n+m)^2m\hat{c}_i} + \sum_{i=1}^k \dfrac{(nX_{m,i} - mY_{n,i})^2}{(n+m)^2n\hat{c}_i}\\ &= \sum_{i=1}^k \dfrac{(nX_{m,i} - mY_{n,i})^2}{nm(n+m)\hat{c}_i} \end{align*}$

Lưu ý tiếp theo rằng với các thuộc tính sau

n X_{m, i} - m Y_{n, i} = \sum_{t = 1}^{N} n X_{t, i}^{*} - m Y_{t, i}^{*} = Z_{i}

$nX_{m,i} - mY_{n,i} = \sum_{t=1}^N nX_{t,i}^* - mY_{t,i}^* = Z_{i}$

\begin{aligned} E [Z_{i}] & = n E [X_{m, i}] - m E [Y_{n, i}] \\ = n m a_{i} - n m a_{i} = 0 \\ Var [Z_{i}] & = Var [n X_{m, i} - m Y_{n, i}] \\ = n^{2} Var [X_{m, i}] - m^{2} Var [Y_{n, i}] Note X_{m, i} and Y_{n, i} are independent \\ = n^{2} m a_{i} (1 - a_{i}) + m^{2} n a_{i} (1 - a_{i}) \\ = n m (n + m) a_{i} (1 - a_{i}) \\ Cov [Z_{i}, Z_{j}] & = E [Z_{i} Z_{j}] - E [Z_{i}] E [Z_{j}] \\ = E [(n X_{m, i} - m Y_{n, i}) (n X_{m, j} - m Y_{n, j})] \\ = n^{2} (- m a_{i} a_{j} + m^{2} a_{i} a_{j}) - 2 n^{2} m^{2} a_{i} a_{j} + m^{2} (- n a_{i} a_{j} + n^{2} a_{i} a_{j}) \\ = - n m (n + m) a_{i} a_{j} \end{aligned}

$\begin{align*} \text{E}[Z_{i}] &= n\text{E}[X_{m,i}] - m\text{E}[Y_{n,i}]\\ &= nma_i - nma_i = 0\\ \text{Var}[Z_{i}] &= \text{Var}[nX_{m,i} - mY_{n,i}]\\ &= n^2\text{Var}[X_{m,i}] - m^2\text{Var}[Y_{n,i}] \qquad\text{Note $X_{m,i}$ and $Y_{n,i}$ are independent}\\ &= n^2ma_i(1-a_i) + m^2na_i(1-a_i)\\ &= nm(n+m)a_i(1-a_i)\\ \text{Cov}[Z_{i},Z_{j}] &= \text{E}[Z_{i}Z_{j}] - \text{E}[Z_{i}]\text{E}[Z_{j}]\\ &= \text{E}[(nX_{m,i} - mY_{n,i})(nX_{m,j} - mY_{n,j})]\\ &= n^2(-ma_ia_j + m^2a_ia_j) - 2n^2m^2a_ia_j + m^2(-na_ia_j+n^2a_ia_j)\\ &= -nm(n+m)a_ia_j \end{align*}$

và do CLT đa biến, chúng ta có trong đó phần tử của , . Vì Bởi Slutsky, chúng ta có trong đó là ma trận danh tính ,

\frac{1}{\sqrt{n m (n + m)}} Z = \frac{n X_{m} - m Y_{n}}{\sqrt{n m (n + m)}} \overset{D}{\to} N (0, Σ)

$\dfrac{1}{\sqrt{nm(n+m)}}\mathbf{Z} = \dfrac{n\mathbf{X}_m - m \mathbf{Y}_n}{\sqrt{nm(n+m)}}\overset{D}{\to} \text{N}(\mathbf{0},\Sigma)$

(i, j)

$(i,j)$

Σ

$\Sigma$

σ_{i j} = a_{i} (δ_{i j} - a_{j})

$\sigma_{ij} = a_i(\delta_{ij} - a_j)$

\hat{c} = ({\hat{c}}_{1}, \dots, {\hat{c}}_{k}) \overset{p}{\to} (a_{1}, \dots, a_{k}) = a

$\hat{\mathbf{c}} = (\hat{c}_1,\ldots,\hat{c}_k) \overset{p}{\to} (a_1,\ldots,a_k)=\mathbf{a}$

\frac{n X_{m} - m Y_{n}}{\sqrt{n m (n + m)} \hat{c}} \overset{D}{\to} N (0, I_{k} - \sqrt{a} {\sqrt{a}}^{'})

$\dfrac{n\mathbf{X}_m - m \mathbf{Y}_n}{\sqrt{nm(n+m)}\hat{\mathbf{c}}}\overset{D}{\to} \text{N}(\mathbf{0},\mathbf{I}_k - \sqrt{\mathbf{a}}\sqrt{\mathbf{a}}')$

I_{k}

$\mathbf{I}_k$

k \times k

$k\times k$

\sqrt{a} = (\sqrt{a_{1}}, \dots, \sqrt{a_{k}})

$\sqrt{\mathbf{a}} = (\sqrt{a_1},\ldots,\sqrt{a_k})$ . Vì có eigenvalue 0 của bội số 1 và eigenvalue 1 của bội số , theo định lý ánh xạ liên tục (hoặc xem Bổ đề 17.1, Định lý 17.2 của van der Vaart) chúng ta có

I_{k} - \sqrt{a} {\sqrt{a}}^{'}

$\mathbf{I}_k - \sqrt{\mathbf{a}}\sqrt{\mathbf{a}}'$

k - 1

$k-1$

\sum_{i = 1}^{k} \frac{(n X_{m, i} - m Y_{n, i})^{2}}{n m (n + m) {\hat{c}}_{i}} \overset{D}{\to} χ_{k - 1}^{2}

$\sum_{i=1}^k \dfrac{(nX_{m,i} - mY_{n,i})^2}{nm(n+m)\hat{c}_i} \overset{D}{\to} \chi^2_{k-1}$

— bdeonovic
nguồn