Tôi đang làm việc để phát triển một phòng thí nghiệm vật lý về sự phân rã phóng xạ và khi phân tích dữ liệu mẫu tôi đã lấy, tôi gặp phải một vấn đề thống kê khiến tôi ngạc nhiên.
Người ta biết rằng số lượng phân rã trên một đơn vị thời gian của một nguồn phóng xạ được phân phối Poisson. Cách phòng thí nghiệm hoạt động là sinh viên đếm số lượng phân rã trên mỗi cửa sổ thời gian, và sau đó lặp lại điều này nhiều lần. Sau đó, họ bin dữ liệu của họ theo số lượng đếm và thực hiện mộtmức độ tốt của kiểm tra sự phù hợp với 1 tham số ước tính (giá trị trung bình) để kiểm tra xem giả thuyết null hay không (dữ liệu được rút ra từ phân phối Poisson với giá trị trung bình ước tính). Hy vọng rằng họ sẽ nhận được giá trị p lớn và kết luận rằng vật lý thực sự hoạt động (yay).
Tôi nhận thấy rằng cách tôi đánh cắp dữ liệu của mình có ảnh hưởng lớn đến giá trị p. Ví dụ: nếu tôi chọn nhiều thùng rất nhỏ (ví dụ: một thùng riêng cho mỗi số nguyên: 78 đếm / phút, 79 đếm / phút, v.v.) Tôi có một giá trị p nhỏ và sẽ phải từ chối giả thuyết khống . Tuy nhiên, nếu tôi đã đánh cắp dữ liệu của mình thành ít thùng hơn (ví dụ: sử dụng số lượng thùng được đưa ra bởi Quy tắc của Sturge:), Tôi có giá trị p lớn hơn nhiều và KHÔNG từ chối giả thuyết null.
Nhìn vào dữ liệu của tôi, nó trông cực kỳ phân phối Poisson (Nó xếp hàng gần như hoàn hảo với số lượng / phút dự kiến của tôi). Điều đó nói rằng, có một số lượng trong thùng rất xa trung bình. Điều đó có nghĩa là khi tính toán thống kê sử dụng các thùng rất nhỏ, tôi có một vài thuật ngữ như:
Câu hỏi:
Có một quy tắc tốt để chọn kích thước thùng khi thực hiện Kiểm tra GOF?
Là sự khác biệt giữa các kết quả cho các kích thước thùng khác nhau mà tôi nên biết về *, hoặc là dấu hiệu của một số vấn đề lớn hơn trong phân tích dữ liệu được đề xuất của tôi?
- Cảm ơn bạn
* (Tôi đã tham gia một lớp thống kê ở đại học, nhưng đó không phải là lĩnh vực chuyên môn của tôi.)