Tính bảo thủ của các xét nghiệm dựa trên các biến ngẫu nhiên rời rạc

8

Đối với thống kê kiểm tra rời rạc, phân phối của giá trị tương ứng là rời rạc và lớn hơn ngẫu nhiên so với phân phối đồng đều. Do đó, kiểm tra giả thuyết tương ứng dựa trên giá trị p (ví dụ từ chối nếu giá trị p nhỏ hơn 0,05) luôn bảo thủ theo nghĩa xác suất tạo ra lỗi Loại I sẽ nhỏ hơn 0,05. Tôi biết đôi khi nên sử dụng giá trị trung bình. Nhưng tôi nghĩ không có bằng chứng nào cho thấy việc sử dụng giá trị trung bình vẫn kiểm soát lỗi Loại I. Có cách nào khác để giảm tính bảo thủ? Bất cứ ai quen thuộc với lĩnh vực này có thể đưa ra một số gợi ý hoặc chỉ ra một số tài liệu hiện có về điều này? $p$

— người dùng13154
nguồn

3

Các lý thuyết giải pháp là sử dụng một thử nghiệm ngẫu nhiên. Tuy nhiên, thực tế , nhiều người thấy rằng có phần không hấp dẫn.

— Đức hồng y

Số liệu thống kê của FYI.stackexchange.com/questions/26081/binomial-mid-p-value

— Stéphane Laurent

1

Tôi chưa bao giờ nghe nó đề nghị sử dụng giá trị trung bình p. Điều này sẽ không nhất thiết kiểm soát lỗi loại một của bạn. Như đã nêu trước đây, cách chính xác để đạt được kích thước 0,05 là thực hiện thử nghiệm ngẫu nhiên. Tuy nhiên, lỗi loại một của bạn là chính xác cho dù thử nghiệm có ngẫu nhiên hay không. Trong trường hợp bảo thủ, không ngẫu nhiên, quy trình thử nghiệm của bạn có kích thước nhỏ hơn mức alpha danh nghĩa. Vì mức độ alpha 0,05 là tùy ý, nên nó đủ để báo cáo kích thước của thử nghiệm.

— khách47
nguồn

Tôi cho rằng OP muốn "giảm tính bảo thủ" trong thử nghiệm của họ để tăng sức mạnh.

— Patrick Coulombe

1

Một phương pháp làm giảm tính bảo thủ của một số thống kê kiểm tra rời rạc

(hoặc nói chung hơn, chỉ cần có thêm sự lựa chọn về mức độ quan trọng)

Tùy thuộc vào thử nghiệm, một cách tiếp cận hữu ích đôi khi không yêu cầu ngẫu nhiên là thêm một phần nhỏ của một thống kê hợp lý khác để phá vỡ mối quan hệ.

Ví dụ, hãy tưởng tượng chúng tôi đã thử nghiệm tau của Kendall nhưng trong các mẫu có kích thước nhỏ đến trung bình, nó vẫn khá rời rạc, do đó khó đạt được mức ý nghĩa mong muốn.

Để cụ thể, giả sử bạn muốn một mức gần với trong bài kiểm tra hai đuôi, với . $\alpha = 10\%$ $n=7$

Các mức ý nghĩa có thể đạt được là 6,9% hoặc 13,6%; không phải là rất gần với những gì cần thiết!

Một điều chúng ta có thể làm là thêm một phần rất nhỏ của một thống kê khác, một điều không hoàn toàn tương quan với điều chúng ta có; điều này có nghĩa là nhiều thỏa thuận đưa ra số liệu thống kê đã được gắn trước đó không còn bị ràng buộc nữa, mặc dù giá trị của chúng gần nhau.

Ví dụ: nếu chúng ta sử dụng rho của Spearman để phá vỡ mối quan hệ, ví dụ bằng cách xem , các giá trị gần như giống hệt trước đây, nhưng mức ý nghĩa có thể đạt được hiện tại là 8,9% và 10,9% - không hoàn hảo , nhưng tốt hơn nhiều so với trước đây - và trong trường hợp này, thống kê vẫn được phân phối miễn phí. $0.999 \tau + 0.001 \rho$

Lưu ý rằng trọng lượng trên có thể được làm nhỏ như mong muốn. $\rho$

Đây là một minh họa - màu đen là ECDF của tương quan Kendall ban đầu, trong khi màu đỏ là phiên bản 'phá vỡ quan hệ'. Tôi đã làm cho sự đóng góp tương đối của Spearman lớn hơn nhiều ở đây (trọng lượng 0,1) để bạn có thể thấy rõ hơn hiệu quả:

kendall với tiebreaks

Hãy phóng to khu vực gần mức 2,5% và 5% ở đầu bên trái (một đuôi, để tương ứng với 5% và 10% hai đuôi):

kendall với phá vỡ, phóng to

Như chúng ta thấy, chúng ta có thể tiến gần hơn đến mức ý nghĩa mong muốn theo cách này, trong khi vẫn giữ lại tất cả các thuộc tính mong muốn khác cho bất kỳ mức độ gần nào chúng ta muốn.

Có nhiều điều chỉnh khác nhau để làm cho kết quả thậm chí giống Kendall hơn (ví dụ: để thiết lập nó để kỳ vọng điều chỉnh nhỏ cho tương quan Kendall ở mỗi tương quan Kendall là 0, nhưng đó hiếm khi là vấn đề đối với tôi).

[Nếu bạn thực sự không biết Kendall và Spearman nào bạn muốn sử dụng cho mối tương quan không theo tỷ lệ, thì một hỗn hợp thậm chí còn có phân phối trông bình thường hơn nhiều (mặc dù hơi khó để xử lý phương sai của nó nếu bạn không tìm ra bản phân phối chính xác - một tính năng hay của việc sử dụng một phiên bản với gần như tất cả một hoặc một thống kê khác là bạn có thể sử dụng một xấp xỉ bình thường hiện có dễ dàng hơn, ngay cả khi đó không phải là một bản phân phối đẹp).]

Cách tiếp cận tương tự này để có được mức ý nghĩa (và giá trị p) đẹp hơn có thể hoạt động với các thử nghiệm khác; Tôi đã thấy nó được sử dụng với một bài kiểm tra dấu hiệu (phá vỡ mối quan hệ với một thống kê cấp bậc đã ký thay đổi kích thước phù hợp) chẳng hạn.

— Glen_b -Reinstate Monica
nguồn