Chọn một bài kiểm tra thống kê dựa trên kết quả của một bài kiểm tra khác (ví dụ: tính quy tắc)


13

Vì vậy, tôi đã nghe nói rằng không nên chọn một bài kiểm tra thống kê dựa trên kết quả của bài kiểm tra khác. Điều này có vẻ lạ đối với tôi mặc dù. Ví dụ, mọi người thường chọn sử dụng thử nghiệm không tham số khi một số thử nghiệm khác cho thấy phần dư không được phân phối bình thường. Cách tiếp cận này có vẻ được chấp nhận rộng rãi nhưng dường như không đồng ý với câu đầu tiên trong đoạn này. Tôi chỉ mong được làm rõ về vấn đề này.


3
Chỉ vì phần dư không phải là Gaussian không có nghĩa là bạn cần các xét nghiệm không tham số. Bạn thường có thể phân biệt loại mô hình sẽ sử dụng (mô hình có, không phải kiểm tra) từ bản chất của dữ liệu (đếm, dữ liệu 0 1, liên tục, mối quan hệ phương sai trung bình, mối quan hệ tuyến tính hoặc phi tuyến tính, v.v.) và mô hình phù hợp để đáp ứng các tính năng của dữ liệu trước đây đã quyết định giả thuyết cần kiểm tra là gì. Khi bạn cảm thấy sự phù hợp đáp ứng các giả định của mô hình được trang bị thì bạn có thể đánh giá giá trị p và các số liệu thống kê khác,
Tái lập Monica - G. Simpson

Câu trả lời:


14

Cho rằng là xác suất quan sát dữ liệu cực trị hoặc cực đoan hơn nếu H 0 là đúng, vậy thì cách giải thích của p trong đó p được đưa ra thông qua một quá trình trong đó có một quyết định ngẫu nhiên được đưa ra trong việc lựa chọn thử nghiệm sản xuất mà p ? Câu trả lời là không thể biết được (hoặc ít nhất là rất gần như không thể biết). Bằng cách đưa ra quyết định chạy thử nghiệm hay không dựa trên một số quy trình xác suất khác, bạn đã khiến cho việc giải thích kết quả của mình trở nên phức tạp hơn. ppH0ppppcác giá trị có thể được giải thích tối đa khi kích thước mẫu và kế hoạch phân tích đã được chọn trước. Trong các tình huống khác, việc giải thích trở nên khó khăn, đó là lý do tại sao "đó không phải là một ý tưởng hay". Điều đó đang được nói, đó là một thực tế được chấp nhận rộng rãi ... sau tất cả, tại sao thậm chí còn bận tâm chạy thử nghiệm nếu bạn phát hiện ra rằng thử nghiệm bạn dự định chạy là không hợp lệ? Câu trả lời cho câu hỏi đó ít chắc chắn hơn. Tất cả điều này rút ra một thực tế đơn giản là thử nghiệm ý nghĩa giả thuyết null (trường hợp sử dụng chính của ) có một số vấn đề khó có thể vượt qua.p


Tôi không thể tìm thấy bất kỳ bài viết nào thảo luận về hiện tượng này trên Google, có thể vì tôi đã sử dụng các thuật ngữ tìm kiếm sai. Ai đó có thể chỉ cho tôi theo hướng một bài viết thảo luận về vấn đề kiểm tra dựa trên các bài kiểm tra?
Hội trường Rob

1
@RobHall: Đây là một ví dụ cụ thể của "Tầm quan trọng của các vấn đề giả định đối với dữ liệu tưởng tượng". Cf. Wagenmakers, 2007, p. 784. Các nhà sản xuất Wagen đặc biệt rút ra vấn đề biến đổi trong cột thứ hai nói "để tính giá trị ap, bạn cần biết những gì bạn sẽ làm nếu dữ liệu khác đi ... điều này bao gồm những gì bạn sẽ làm nếu dữ liệu rõ ràng đã được phân phối không theo tỷ lệ ..., giá trị p chỉ có thể được tính khi kế hoạch lấy mẫu được biết đầy đủ và được chỉ định trước ".
russellpierce

8

Ví dụ, mọi người thường chọn sử dụng thử nghiệm không tham số khi một số thử nghiệm khác cho thấy phần dư không được phân phối bình thường. Cách tiếp cận này có vẻ được chấp nhận rộng rãi nhưng dường như không đồng ý với câu đầu tiên trong đoạn này. Tôi chỉ mong được làm rõ về vấn đề này.

Vâng, rất nhiều người làm điều này, và thay đổi thử nghiệm thứ hai của họ thành một thử nghiệm có thể đối phó với sự không đồng nhất khi họ từ chối sự bình đẳng của phương sai, v.v.

Chỉ vì một cái gì đó là phổ biến, không có nghĩa là nó nhất thiết phải khôn ngoan.

Thật vậy, ở một số nơi (tôi sẽ không nêu tên các môn học vi phạm tồi tệ nhất) rất nhiều thử nghiệm giả thuyết chính thức này phụ thuộc vào thử nghiệm giả thuyết chính thức khác thực sự được dạy.

Vấn đề với việc làm đó là các thủ tục của bạn không có thuộc tính danh nghĩa của chúng, đôi khi thậm chí không đóng. (Mặt khác, giả sử những điều như vậy mà không có sự cân nhắc nào về vi phạm cực đoan có thể còn tồi tệ hơn.)

Một số bài báo cho rằng đối với trường hợp không đồng nhất, bạn nên hành động đơn giản như thể các phương sai không bằng để kiểm tra nó và chỉ làm điều gì đó về sự từ chối.

Trong trường hợp thông thường, nó ít rõ ràng hơn. Trong các mẫu lớn ít nhất, trong nhiều trường hợp, tính quy phạm không quá quan trọng (nhưng trớ trêu thay, với các mẫu lớn, thử nghiệm về tính quy tắc của bạn có nhiều khả năng từ chối hơn), miễn là tính phi quy tắc không quá hoang dã. Một ngoại lệ là cho các khoảng dự đoán, trong đó bạn thực sự cần giả định phân phối của mình gần đúng.

Một phần, một vấn đề là các bài kiểm tra giả thuyết trả lời một câu hỏi khác với câu hỏi cần được trả lời. Bạn không thực sự cần phải biết 'dữ liệu thực sự bình thường' (hầu như luôn luôn, nó sẽ không hoàn toàn bình thường như một tiên nghiệm ). Câu hỏi là "mức độ phi bình thường sẽ ảnh hưởng đến suy luận của tôi".

Vấn đề thứ hai thường là độc lập với kích thước mẫu hoặc thực sự trở nên tốt hơn khi tăng kích thước mẫu - tuy nhiên các thử nghiệm giả thuyết sẽ hầu như luôn từ chối ở các cỡ mẫu lớn.

Có rất nhiều tình huống mà có phân phối mạnh mẽ hoặc thậm chí thủ tục miễn phí mà rất gần với đầy đủ hiệu quả ngay cả ở bình thường (và có thể xa hiệu quả hơn tại một số khởi hành khá khiêm tốn từ nó) - trong nhiều trường hợp nó sẽ có vẻ ngớ ngẩn không để có những cùng một cách tiếp cận thận trọng.


Nice (+1) Bạn có thể đưa ra một tài liệu tham khảo cho các bài viết mà bạn đề cập về trường hợp không đồng nhất?
gui11aume

2
Tôi không muốn chỉ ra bất cứ điều gì, nhưng tôi luôn tình cờ thấy họ trực tuyến, vì vậy không khó để tìm ra cái nào có xu hướng nhấn mạnh nó (họ có xu hướng giống như những người trong lịch sử nhấn mạnh quá mức kiểm tra giả thuyết). Thật vậy, kỷ luật của những người tạo ra các câu hỏi ở đây, nơi người đăng cho rằng họ phải sử dụng các bài kiểm tra chính thức thường sẽ giống như vậy. Đó không chỉ là một hoặc hai môn học - tôi thấy nhiều - nhưng một số dường như thường làm điều đó thường xuyên. Để nó trở nên phổ biến một cách hợp lý, tôi chỉ có thể giả sử đã có những văn bản đặc biệt nổi tiếng trong những lĩnh vực khăng khăng về nó.
Glen_b -Reinstate Monica

1
@ gui11aume Đây là một tài liệu tham khảo ... nó không phải là một trong những tài liệu tôi đang tìm kiếm, nhưng nó làm cho điểm mà tôi nhận được (thử nghiệm sơ bộ có thể làm mọi thứ tồi tệ hơn).
Glen_b -Reinstate Monica

2
Andrew Gelman đã có một bài đăng liên quan gần đây về sự không đồng nhất giữa các nhóm có liên quan (ít nhất là về lý do tại sao một quá trình như vậy có vấn đề).
Andy W

1
Một câu hỏi liên quan đến các cuộc thảo luận này trong một thời gian trở lại: stats.stackexchange.com/questions/305/iêu
russellpierce

8

Các vấn đề chính đã được giải thích tốt bởi những người khác, nhưng bị nhầm lẫn với cơ bản hoặc liên quan

  1. Sự tôn trọng quá mức đối với các giá trị P, nhiều nhất là một loại bằng chứng trong thống kê.

  2. Miễn cưỡng thấy rằng các báo cáo thống kê chắc chắn dựa trên sự kết hợp của các lựa chọn, một số dựa trên bằng chứng chắc chắn, một số khác dựa trên sự kết hợp của các phân tích trước đây, trực giác, phỏng đoán, phán đoán, lý thuyết, v.v.

Giả sử tôi và người bạn thận trọng của mình Kiểm tra Mọi thứ đều chọn chuyển đổi nhật ký để trả lời, nhưng tôi chuyển sang kết luận đó dựa trên sự kết hợp giữa lý luận vật lý và kinh nghiệm trước đó với dữ liệu, trong khi Kiểm tra mọi thứ chọn thang đo dựa trên kiểm tra và ước tính Box-Cox của một tham số.

Bây giờ cả hai chúng tôi sử dụng cùng một hồi quy. Các giá trị P của chúng ta có cách hiểu khác nhau không? Theo một cách giải thích, giá trị P của Test Mọi thứ đều có điều kiện trong các suy luận trước đó của cô. Tôi cũng đã sử dụng các suy luận, nhưng chủ yếu là chúng không chính thức, dựa trên một chuỗi dài các biểu đồ, tính toán, v.v. trong các dự án trước đó. Làm thế nào mà được báo cáo?

Đương nhiên, kết quả hồi quy hoàn toàn giống nhau đối với Test Mọi thứ và bản thân tôi.

Sự pha trộn tương tự của lời khuyên hợp lý và triết lý mơ hồ áp dụng cho sự lựa chọn của người dự đoán và hình thức chức năng. Các nhà kinh tế, ví dụ, được dạy rộng rãi để tôn trọng các cuộc thảo luận lý thuyết trước đây và cảnh giác với việc rình mò dữ liệu, với lý do chính đáng trong từng trường hợp. Nhưng trong những trường hợp yếu nhất, lý thuyết liên quan chỉ là một gợi ý dự kiến ​​được đưa ra trước đây trong tài liệu, rất có thể sau một số phân tích thực nghiệm. Nhưng tài liệu tham khảo tài liệu thánh hóa, trong khi học hỏi từ dữ liệu trong tay là nghi ngờ, đối với nhiều tác giả.


Rất rõ ràng (+1).
gui11aume

1
+1. Tuy nhiên, có một sự khác biệt lâu dài trong hiệu suất phân tích của bạn so với phân tích của Test Mọi thứ. Mỗi khi phân tích này được chạy, bạn sẽ sử dụng cùng một chiến lược, dựa trên những gì được viết trong tài liệu (không biến động thử nghiệm bằng thử nghiệm). OTOH, dữ liệu một mẫu ngẫu nhiên và đầu ra từ thử nghiệm Box-Cox sẽ dao động nghiên cứu theo nghiên cứu.
gung - Phục hồi Monica

Điều đó thật buồn cười, nhưng trải nghiệm của tôi cũng thay đổi, lâu dài.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.