Bỏ qua vấn đề rõ ràng về sức mạnh thấp của bình phương trong tình huống này, hãy tưởng tượng thực hiện kiểm tra chi bình phương cho một số mật độ với các tham số không xác định, bằng cách tạo dữ liệu.
Để cụ thể, giả sử một phân phối theo cấp số nhân với giá trị trung bình chưa biết và cỡ mẫu là 100.
Để có được số lượng quan sát dự kiến hợp lý cho mỗi thùng, một số tài khoản sẽ cần được lấy dữ liệu (ví dụ: nếu chúng tôi chọn đặt 6 thùng bên dưới giá trị trung bình và 4 trên mức đó, thì vẫn sẽ sử dụng ranh giới bin dựa trên dữ liệu) .
Nhưng việc sử dụng thùng này dựa trên việc xem dữ liệu có lẽ sẽ ảnh hưởng đến việc phân phối thống kê kiểm tra theo giá trị rỗng.
Tôi đã thấy nhiều cuộc thảo luận về thực tế rằng - nếu các tham số được ước tính theo khả năng tối đa từ dữ liệu đã bị đánh cắp - bạn sẽ mất 1 df cho mỗi tham số ước tính (một vấn đề có ngay từ thời Fisher vs Karl Pearson) - nhưng tôi không nhớ lại đọc bất cứ điều gì về việc tự tìm ranh giới bin dựa trên dữ liệu. (Nếu bạn ước tính chúng từ dữ liệu chưa được xử lý, thì với thùng, phân phối thống kê kiểm tra nằm ở đâu đó giữa a và .)
Sự lựa chọn thùng dựa trên dữ liệu này có ảnh hưởng đáng kể đến mức độ quan trọng hoặc sức mạnh không? Có một số cách tiếp cận quan trọng hơn những cách khác? Nếu có nhiều ảnh hưởng, nó có phải là thứ gì đó biến mất trong các mẫu lớn?
Nếu nó có tác động đáng kể, điều này dường như sẽ sử dụng kiểm tra chi bình phương khi các tham số không rõ gần như vô dụng trong nhiều trường hợp (mặc dù vẫn được ủng hộ trong một vài văn bản), trừ khi bạn có một ước tính -priori của tham số.
Thảo luận về các vấn đề hoặc con trỏ đến tài liệu tham khảo (tốt nhất là đề cập đến kết luận của họ) sẽ hữu ích.
Chỉnh sửa, khá nhiều cho một câu hỏi chính:
Tôi nhận thấy rằng có những giải pháp tiềm năng cho trường hợp cụ thể của cấp số nhân * (và đồng phục nghĩ về nó), nhưng tôi vẫn quan tâm đến vấn đề chung hơn về việc chọn ranh giới bin.
* Ví dụ: đối với số mũ, người ta có thể sử dụng quan sát nhỏ nhất (giả sử nó bằng ) để có được một ý tưởng rất sơ bộ về nơi đặt các thùng (vì quan sát nhỏ nhất là theo cấp số nhân với trung bình ) và sau đó kiểm tra khác biệt ( x i - m ) về hàm mũ. Tất nhiên điều đó có thể mang lại ước tính μ rất kém , và do đó lựa chọn thùng kém, mặc dù tôi cho rằng người ta có thể sử dụng đối số một cách đệ quy để lấy hai hoặc ba quan sát thấp nhất để chọn các thùng hợp lý và sau đó kiểm tra sự khác biệt của các quan sát còn lại trên mức lớn nhất trong số các thống kê đơn hàng nhỏ nhất theo cấp số nhân)