Làm thế nào để bạn chọn số lượng thùng để sử dụng cho một bài kiểm tra GOF Chi-Squared?


8

Tôi đang làm việc để phát triển một phòng thí nghiệm vật lý về sự phân rã phóng xạ và khi phân tích dữ liệu mẫu tôi đã lấy, tôi gặp phải một vấn đề thống kê khiến tôi ngạc nhiên.

Người ta biết rằng số lượng phân rã trên một đơn vị thời gian của một nguồn phóng xạ được phân phối Poisson. Cách phòng thí nghiệm hoạt động là sinh viên đếm số lượng phân rã trên mỗi cửa sổ thời gian, và sau đó lặp lại điều này nhiều lần. Sau đó, họ bin dữ liệu của họ theo số lượng đếm và thực hiện mộtχ2mức độ tốt của kiểm tra sự phù hợp với 1 tham số ước tính (giá trị trung bình) để kiểm tra xem giả thuyết null hay không (dữ liệu được rút ra từ phân phối Poisson với giá trị trung bình ước tính). Hy vọng rằng họ sẽ nhận được giá trị p lớn và kết luận rằng vật lý thực sự hoạt động (yay).

Tôi nhận thấy rằng cách tôi đánh cắp dữ liệu của mình có ảnh hưởng lớn đến giá trị p. Ví dụ: nếu tôi chọn nhiều thùng rất nhỏ (ví dụ: một thùng riêng cho mỗi số nguyên: 78 đếm / phút, 79 đếm / phút, v.v.) Tôi có một giá trị p nhỏ và sẽ phải từ chối giả thuyết khống . Tuy nhiên, nếu tôi đã đánh cắp dữ liệu của mình thành ít thùng hơn (ví dụ: sử dụng số lượng thùng được đưa ra bởi Quy tắc của Sturge:1+log2(N)), Tôi có giá trị p lớn hơn nhiều và KHÔNG từ chối giả thuyết null.

Nhìn vào dữ liệu của tôi, nó trông cực kỳ phân phối Poisson (Nó xếp hàng gần như hoàn hảo với số lượng / phút dự kiến ​​của tôi). Điều đó nói rằng, có một số lượng trong thùng rất xa trung bình. Điều đó có nghĩa là khi tính toánχ2 thống kê sử dụng các thùng rất nhỏ, tôi có một vài thuật ngữ như:

(ObservedExpected)2Expected=(10.05)20.05=18.05
Điều này dẫn đến cao χ2thống kê, và do đó giá trị p thấp. Như mong đợi, vấn đề không còn nữa đối với chiều rộng thùng lớn hơn, vì giá trị mong đợi không bao giờ thấp đến thế.

Câu hỏi:

Có một quy tắc tốt để chọn kích thước thùng khi thực hiện χ2 Kiểm tra GOF?

Là sự khác biệt giữa các kết quả cho các kích thước thùng khác nhau mà tôi nên biết về *, hoặc là dấu hiệu của một số vấn đề lớn hơn trong phân tích dữ liệu được đề xuất của tôi?

- Cảm ơn bạn

* (Tôi đã tham gia một lớp thống kê ở đại học, nhưng đó không phải là lĩnh vực chuyên môn của tôi.)


Có vẻ như là một vấn đề về độ nhạy và độ đặc hiệu, tức là bạn đang gặp lỗi loại II vì các phép đo của bạn quá cụ thể.
Jay Schyler Raadt

1
Một phép đo quá cụ thể sẽ tạo ra lỗi loại II, nhưng một phép đo quá nhạy sẽ tạo ra lỗi loại I. Ví dụ, điểm cắt cụ thể cho bài kiểm tra IQ có thể khiến trẻ có chỉ số IQ 70,1 không đủ điều kiện để được giáo dục đặc biệt trong khi trẻ có chỉ số IQ là 69,9. Đây sẽ là một lỗi loại II, trong đó giả thuyết null "đứa trẻ này không đủ điều kiện" không bị từ chối. Do đó, một phép đo nhạy hơn là cần thiết, một mạng lớn hơn, mặc dù mạng quá lớn có thể gây ra lỗi loại I trong đó giả thuyết null bị từ chối sai.
Jay Schyler Raadt

2
1. Xấp xỉ chi bình phương có thể khá kém nếu bạn có các giá trị mong đợi nhỏ - nhưng bạn cũng không phải có chiều rộng bin không đổi (miễn là bạn không chọn tham chiếu đến các giá trị quan sát được đếm). 2. " Hy vọng họ sẽ nhận được giá trị p lớn và kết luận rằng vật lý thực sự hoạt động (yay). " - Tôi hy vọng bạn đã biết, nhưng cần phải làm rõ: không từ chối null không xác nhận rằng null là đúng; nó cho thấy rằng bất kỳ sai lệch nào từ Poisson không đủ lớn để phát hiện một cách đáng tin cậy. ... ctd
Glen_b -Reinstate Monica

1
OK, cảm ơn tất cả các bạn đã quan tâm đến điều này. @Whuber, câu trả lời của bạn cho câu hỏi khác là không thể tin được. Sau đó, bạn có nói rằng câu trả lời cho câu hỏi đầu tiên của tôi về cơ bản chỉ là "không" - không có quy tắc tốt nào ở cấp độ này?
Bunji

1
Có nhiều cân nhắc. Tôi nghĩ rằng có thể có một số quy tắc hữu ích của ngón tay cái. Chẳng hạn, tôi thường thành công bằng cách đoán phân phối số lượng sẽ là bao nhiêu và tạo ra các thùng dự kiến ​​có số lượng xấp xỉ bằng nhau từ 5 cái trở lên; nhưng hiếm khi cần hơn 20 thùng. Đôi khi, tôi đang tìm kiếm sự khác biệt trong các phạm vi cụ thể, chẳng hạn như đuôi phân phối, và vì vậy trong các phạm vi đó, tôi có thể tạo các thùng hẹp hơn để phát hiện sự khác biệt chi tiết.
whuber

Câu trả lời:


1

Là sự khác biệt giữa các kết quả cho các kích thước thùng khác nhau mà tôi nên biết về *, hoặc là dấu hiệu của một số vấn đề lớn hơn trong phân tích dữ liệu được đề xuất của tôi?

Việc đóng gói bộ mẫu phân rã phóng xạ là một cá trích đỏ ở đây. Vấn đề thực sự bắt nguồn từ thực tế là chi bình phương (cùng với các khung kiểm tra giả thuyết khác) rất nhạy cảm với kích thước mẫu. Trong trường hợp chi bình phương, khi kích thước mẫu tăng, sự khác biệt tuyệt đối trở thành một phần ngày càng nhỏ hơn của giá trị mong đợi. Như vậy, nếu kích thước mẫu rất lớn, chúng ta có thể tìm thấy giá trị p nhỏ và ý nghĩa thống kê khi phát hiện nhỏ và không thú vị. Ngược lại, một liên kết hợp lý mạnh mẽ có thể không xuất hiện đáng kể nếu kích thước mẫu nhỏ.

Có một quy tắc tốt để chọn kích thước thùng khi thực hiện kiểm tra GO2 GOF không?

Câu trả lời dường như người ta không nên nhắm đến việc tìm đúng N (tôi không chắc là có thể thực hiện được, nhưng sẽ rất tuyệt nếu người khác sứt mẻ mâu thuẫn), nhưng chỉ nhìn xa hơn giá trị p khi N cao. Đây có vẻ là một bài viết hay về chủ đề: Quá lớn để thất bại: Các mẫu lớn và vấn đề giá trị p

PS Có các lựa chọn thay thế cho test2 thử nghiệm như Cramer VG-Test ; tuy nhiên bạn vẫn sẽ gặp các vấn đề tương tự với N -> giá trị p nhỏ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.