Tác động của ranh giới bin dựa trên dữ liệu đối với độ tốt chi bình phương của kiểm tra sự phù hợp?


18

Bỏ qua vấn đề rõ ràng về sức mạnh thấp của bình phương trong tình huống này, hãy tưởng tượng thực hiện kiểm tra chi bình phương cho một số mật độ với các tham số không xác định, bằng cách tạo dữ liệu.

Để cụ thể, giả sử một phân phối theo cấp số nhân với giá trị trung bình chưa biết và cỡ mẫu là 100.

Để có được số lượng quan sát dự kiến ​​hợp lý cho mỗi thùng, một số tài khoản sẽ cần được lấy dữ liệu (ví dụ: nếu chúng tôi chọn đặt 6 thùng bên dưới giá trị trung bình và 4 trên mức đó, thì vẫn sẽ sử dụng ranh giới bin dựa trên dữ liệu) .

Nhưng việc sử dụng thùng này dựa trên việc xem dữ liệu có lẽ sẽ ảnh hưởng đến việc phân phối thống kê kiểm tra theo giá trị rỗng.

Tôi đã thấy nhiều cuộc thảo luận về thực tế rằng - nếu các tham số được ước tính theo khả năng tối đa từ dữ liệu đã bị đánh cắp - bạn sẽ mất 1 df cho mỗi tham số ước tính (một vấn đề có ngay từ thời Fisher vs Karl Pearson) - nhưng tôi không nhớ lại đọc bất cứ điều gì về việc tự tìm ranh giới bin dựa trên dữ liệu. (Nếu bạn ước tính chúng từ dữ liệu chưa được xử lý, thì với thùng, phân phối thống kê kiểm tra nằm ở đâu đó giữa a và .)kχk2χkp2

Sự lựa chọn thùng dựa trên dữ liệu này có ảnh hưởng đáng kể đến mức độ quan trọng hoặc sức mạnh không? Có một số cách tiếp cận quan trọng hơn những cách khác? Nếu có nhiều ảnh hưởng, nó có phải là thứ gì đó biến mất trong các mẫu lớn?

Nếu nó có tác động đáng kể, điều này dường như sẽ sử dụng kiểm tra chi bình phương khi các tham số không rõ gần như vô dụng trong nhiều trường hợp (mặc dù vẫn được ủng hộ trong một vài văn bản), trừ khi bạn có một ước tính -priori của tham số.

Thảo luận về các vấn đề hoặc con trỏ đến tài liệu tham khảo (tốt nhất là đề cập đến kết luận của họ) sẽ hữu ích.


Chỉnh sửa, khá nhiều cho một câu hỏi chính:

Tôi nhận thấy rằng có những giải pháp tiềm năng cho trường hợp cụ thể của cấp số nhân * (và đồng phục nghĩ về nó), nhưng tôi vẫn quan tâm đến vấn đề chung hơn về việc chọn ranh giới bin.

* Ví dụ: đối với số mũ, người ta có thể sử dụng quan sát nhỏ nhất (giả sử nó bằng ) để có được một ý tưởng rất sơ bộ về nơi đặt các thùng (vì quan sát nhỏ nhất là theo cấp số nhân với trung bìnhmμ/n ) và sau đó kiểm tra khác biệt ( x i - m ) về hàm mũ. Tất nhiên điều đó có thể mang lại ước tính μ rất kém , và do đó lựa chọn thùng kém, mặc dù tôi cho rằng người ta có thể sử dụng đối số một cách đệ quy để lấy hai hoặc ba quan sát thấp nhất để chọn các thùng hợp lý và sau đó kiểm tra sự khác biệt của các quan sát còn lại trên mức lớn nhất trong số các thống kê đơn hàng nhỏ nhất theo cấp số nhân)n1ximμ


1
Câu hỏi thú vị. Tôi không biết câu trả lời, nhưng ý tưởng rằng một số mức độ tự do nên bị mất có ý nghĩa. Nếu bạn chưa nhìn thấy nó, câu trả lời của @whuber nên được kích thích bằng suy nghĩ: làm thế nào để hiểu mức độ tự do . Dường như với tôi rằng một số nghiên cứu mô phỏng sẽ cho phép bạn có được một cơ hội ở đây, ít nhất là đối với một số trường hợp cụ thể.
gung - Tái lập Monica

1
Không chắc điều này hữu ích như thế nào, nhưng có một vấn đề tương tự trong lĩnh vực ước tính mạnh mẽ. Cụ thể, một phương pháp ước lượng mạnh (ví dụ: trung bình cắt) thường yêu cầu đầu vào được tham số hóa (ví dụ: tham số xác định mức độ cần cắt). Tham số này có thể được chọn bằng phương pháp dựa trên dữ liệu (ví dụ: xem mức độ béo của đuôi trước khi chọn tham số cắt). Nhưng việc chọn trước tham số cắt xén sẽ ảnh hưởng đến việc phân phối giá trị trung bình đã cắt, so với, quy tắc tham số cố định. Cách thông thường mà nó được xử lý trong tài liệu đó là thông qua bootstrap.
Colin T Bowers

@ColinTBowers - có khả năng phần nào hữu ích, cảm ơn. Không nghĩ về khả năng bootstrapping.
Glen_b -Reinstate Monica

1
Nó có thể thú vị để chia vấn đề thành một trường hợp đơn giản nhất. Hãy tưởng tượng một cái gì đó giống như chỉ 5 quan sát từ phân phối yêu thích của bạn và đặt một bộ chia duy nhất trong dữ liệu để tạo thành chỉ hai thùng.
zkurtz

Câu trả lời:


15

Các kết quả cơ bản của kiểm tra mức độ phù hợp chi bình phương có thể được hiểu theo cấp bậc .

Cấp 0 . Chi-square test thống kê Pearson cổ điển dành cho thử nghiệm một mẫu đa thức chống lại một vector khả năng cố định X 2 ( p ) = k Σ i = 1 ( X ( n ) i - n p i ) 2p trong đó X ( n ) i biểu thị số lượng kết quả trongô thứ i trong một mẫu có kích thước n . Điều này có thể có hiệu quả được xem như là tiêu chuẩn bình phương của vector Y n = ( Y ( n ) 1 , ... , Y ( n ) k ) nơi Y ( n ) i = ( X ( n ) i - n p i ) /

X2(p)=i=1k(Xi(n)npi)2npidχk12,
Xi(n)inYn=(Y1(n),,Yk(n)) đó, do hội tụ định lý giới hạn trung tâm đa biến trong phân phối như Y n d N(0,I-Yi(n)=(Xi(n)npi)/npi Từ đó chúng ta thấy rằng X 2 = Y n 2χ 2 k - 1 từ tôi -
YndN(0,IppT).
X2=Yn2χk12là idempotent của cấpk-1.IppTk1

pmpi

X12=i=1k(Xi(n)np^i)2np^idχkm12,

λk

mm=1

X22=i=1k(Xi(n)np^i)2np^idχkm12,
p^i

Z1,,ZnFλλχkm12χk12

YnN(0,IpλpλTA(λ))

λA(λ)

YnB(λ^)

YnTBTBYndχk12,
k

Ví dụ như thống kê Raoifer Robson, Nikulinthống kê Dzhaparidze trên Nikulin .

k1/kI^j=μ^+σ^I0,jI0,j=[F1((j1)/k),F1(j/k))

Người giới thiệu

  1. A W. van der Vaart (1998), Thống kê tiệm cận , Nhà xuất bản Đại học Cambridge. Chương 17 : Xét nghiệm Chi-Square .

  2. χ2

  3. FC Drost (1989), Các thử nghiệm về độ phù hợp chi bình phương tổng quát cho các mô hình quy mô vị trí khi số lượng các lớp có xu hướng vô cùng , Ann. Stat , tập. 17, không. 3, 1285 Từ1300.

  4. MS Nikulin, MS (1973), phép thử Chi bình phương để phân phối liên tục với các tham số thay đổi và tỷ lệ , Lý thuyết xác suất và ứng dụng của nó , tập. 19, không. 3, 559 bóng568.

  5. KO Dzaparidze và MS Nikulin (1973), Về việc sửa đổi số liệu thống kê tiêu chuẩn của Pearson , Lý thuyết xác suất và ứng dụng của nó , tập. 19, không. 4, 851 Ảo853.

  6. KC Rao và DS Robson (1974), Một thống kê chi bình phương cho sự tốt đẹp của các bài kiểm tra phù hợp trong gia đình hàm mũ , Comm. Thống kê. , tập 3., không. 12, 1139 Vang1153.

  7. N. Balakrishnan, V. Voinov và MS Nikulin (2013), Chi-Squared Goodness of Fit Tests with Application , Academy Press.


5

Tôi đã tìm thấy ít nhất một phần câu trả lời cho câu hỏi của tôi, bên dưới. (Tôi vẫn muốn tặng ai đó phần thưởng đó, vì vậy mọi thông tin khác đều được đánh giá cao.)

χkp12p χ12kpχkp2χk2p

Người giới thiệu

Moore DS (1971), Thống kê Chi-Square với Ranh giới tế bào ngẫu nhiên , Ann. Môn Toán. Thống kê , Tập 42, Số 1, 147 Đích.

χ2

χ2

χ2

χ2

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.