Kiểm tra giả thuyết phân phối - quan điểm của việc thực hiện là gì nếu bạn không thể chấp nhận Giả thuyết khống của bạn?


26

Các thử nghiệm giả thuyết khác nhau, chẳng hạn như thử nghiệm GOF, Kolmogorov-Smirnov, Anderson-Darling, v.v., tuân theo định dạng cơ bản này:χ2

H0 : Dữ liệu tuân theo phân phối đã cho.

H1 : Dữ liệu không tuân theo phân phối đã cho.

Thông thường, người ta đánh giá tuyên bố rằng một số dữ liệu đã cho tuân theo một số phân phối nhất định và nếu một từ chối , dữ liệu không phù hợp với phân phối đã cho ở mức . αH0α

Nhưng nếu chúng ta không từ chối thì sao? Tôi đã luôn được dạy rằng người ta không thể "chấp nhận" , vì vậy về cơ bản, chúng tôi không có bằng chứng để từ chối . Đó là, không có bằng chứng cho thấy chúng tôi từ chối rằng dữ liệu tuân theo phân phối nhất định.H 0 H 0H0H0H0

Vì vậy, câu hỏi của tôi là, điểm thực hiện kiểm tra như vậy là gì nếu chúng ta không thể kết luận liệu dữ liệu có tuân theo phân phối nhất định không?


1
Sẽ rất hấp dẫn khi chỉ trả lời "điểm kiểm tra [nói chung] là gì nếu người ta không thể chấp nhận giả thuyết khống?". Trong mọi trường hợp, kiểm tra thống kê không phải là cơ sở duy nhất của việc ra quyết định. Thay vào đó, chúng tôi đưa ra quyết định và sử dụng dữ liệu để định lượng rủi ro / chi phí của lỗi Loại I / II. Nếu chúng tôi chỉ tóm tắt chất lượng hoặc mức độ phù hợp với đồ họa hữu ích, QQplots và thống kê dự đoán, chúng tôi sẽ được thông báo chính xác về nguy cơ "chấp nhận null".
AdamO

@AdamO Khi tôi hỏi điều này ba năm trước, tôi vừa hoàn thành một văn bằng toán học (nhấn mạnh chỉ số). Bây giờ tôi mới đi được nửa chương trình thống kê MS và đã hoàn thành một số công việc chuyên môn, tôi hiểu điều này ngay bây giờ. Thật đáng tiếc khi các chỉ số được dạy trong rất nhiều chương trình đại học, nhưng tôi lạc đề.
Clarinetist

Câu trả lời:


37

Nói rộng ra (không chỉ là kiểm tra mức độ phù hợp, mà trong nhiều tình huống khác), bạn chỉ đơn giản là không thể kết luận rằng null là đúng, bởi vì có những lựa chọn thay thế không thể phân biệt được với null ở bất kỳ cỡ mẫu nào.

Đây là hai bản phân phối, một tiêu chuẩn thông thường (đường liền nét màu xanh lá cây) và một phân phối tương tự (90% tiêu chuẩn bình thường và 10% beta tiêu chuẩn (2,2), được đánh dấu bằng một đường đứt nét màu đỏ):

nhập mô tả hình ảnh ở đây

Cái màu đỏ không bình thường. Khi nói , chúng ta có rất ít cơ hội phát hiện ra sự khác biệt, vì vậy chúng ta không thể khẳng định rằng dữ liệu được rút ra từ một phân phối bình thường - nếu nó là từ một phân phối không bình thường như phân phối màu đỏ thì sao?n= =100

Các phân số nhỏ hơn của betas được tiêu chuẩn hóa với các tham số bằng nhau nhưng lớn hơn sẽ khó thấy hơn so với bình thường.

Nhưng do dữ liệu thực tế hầu như không bao giờ từ một phân phối đơn giản nào đó, nếu chúng ta có một nhà tiên tri hoàn hảo (hoặc kích thước mẫu vô hạn hiệu quả), về cơ bản chúng ta sẽ luôn bác bỏ giả thuyết rằng dữ liệu là từ một dạng phân phối đơn giản.

Như George Box nổi tiếng đã nói , " Tất cả các mô hình đều sai, nhưng một số mô hình là hữu ích. "

Xem xét, ví dụ, kiểm tra tính bình thường. Nó có thể là dữ liệu thực sự đến từ một cái gì đó gần với bình thường, nhưng liệu chúng có bao giờ chính xác bình thường? Họ có lẽ không bao giờ được.

Thay vào đó, điều tốt nhất bạn có thể hy vọng với hình thức kiểm tra đó là tình huống bạn mô tả. (Xem, ví dụ, bài đăng Kiểm tra tính quy phạm về cơ bản là vô dụng?, Nhưng có một số bài đăng khác ở đây tạo ra các điểm liên quan)

F

Hãy xem xét hình ảnh trên một lần nữa. Phân phối màu đỏ là không bình thường và với một mẫu thực sự lớn, chúng tôi có thể từ chối kiểm tra tính quy phạm dựa trên mẫu từ nó ... nhưng với kích thước mẫu nhỏ hơn nhiều, hồi quy và hai thử nghiệm t mẫu (và nhiều thử nghiệm khác bên cạnh đó) sẽ hành xử độc đáo đến mức khiến nó trở nên vô nghĩa khi thậm chí lo lắng về tính phi quy tắc đó dù chỉ một chút.

μ= =μ0

Bạn có thể chỉ định một số dạng sai lệch cụ thể và xem xét một số thứ như kiểm tra tương đương, nhưng nó rất khó với sự phù hợp bởi vì có rất nhiều cách để phân phối gần nhưng khác với cách giả định và khác các hình thức khác biệt có thể có tác động khác nhau đến phân tích. Nếu lựa chọn thay thế là một họ rộng hơn bao gồm null như một trường hợp đặc biệt, thì thử nghiệm tương đương có ý nghĩa hơn (ví dụ thử nghiệm theo cấp số nhân với gamma) - và thực tế, phương pháp "thử nghiệm hai phía" mang lại, và điều đó có thể là một cách để chính thức hóa "đủ gần" (hoặc sẽ là nếu mô hình gamma là đúng, nhưng trên thực tế, chính nó sẽ gần như chắc chắn bị từ chối bởi một thử nghiệm phù hợp thông thường,

Mức độ tốt của kiểm tra sự phù hợp (và thường rộng hơn, kiểm tra giả thuyết) thực sự chỉ phù hợp với một phạm vi tình huống khá hạn chế. Câu hỏi mà mọi người thường muốn trả lời không quá chính xác, nhưng hơi mơ hồ và khó trả lời hơn - nhưng như John Tukey đã nói, " Tốt hơn là một câu trả lời gần đúng cho câu hỏi đúng, thường mơ hồ, hơn là một câu trả lời chính xác cho câu hỏi sai, luôn luôn có thể được thực hiện chính xác. "

Các cách tiếp cận hợp lý để trả lời câu hỏi mơ hồ hơn có thể bao gồm các điều tra mô phỏng và lấy mẫu lại để đánh giá mức độ nhạy cảm của phân tích mong muốn đối với giả định mà bạn đang xem xét, so với các tình huống khác cũng phù hợp với dữ liệu có sẵn.

ε


Glen, đây là một câu trả lời tuyệt vời. Có nhiều nguồn lực hơn về "cách tiếp cận hợp lý để trả lời câu hỏi mơ hồ hơn" không? Thật tuyệt vời khi thấy các ví dụ hoạt động trong đó mọi người đang trả lời "dữ liệu của tôi có đủ gần để phân phối X cho mục đích của tôi không?" trong ngữ cảnh.
Stumpy Joe Pete

2
@StumpyJoePete Có một ví dụ về câu trả lời cho một câu hỏi mơ hồ hơn (nhưng hơi khác biệt) ở đây , trong đó mô phỏng được sử dụng để đánh giá ở mức độ cỡ mẫu nào có thể hợp lý khi áp dụng thử nghiệm t với độ lệch (hàm mũ, nói) dữ liệu. Sau đó, trong một câu hỏi tiếp theo, OP đã đưa ra nhiều thông tin hơn về mẫu (nó rời rạc và khi nó bật ra, nhiều sai lệch hơn so với "hàm mũ" sẽ gợi ý), ... (ctd)
Glen_b -Reinstate Monica

2
(ctd) ... vấn đề đã được khám phá chi tiết hơn , một lần nữa sử dụng mô phỏng. Tất nhiên, trong thực tế, cần phải có nhiều hơn 'trở lại' để đảm bảo rằng nó phù hợp với nhu cầu thực tế của con người, thay vì đoán theo lời giải thích ban đầu của họ.
Glen_b -Reinstate Monica

Cảm ơn! Đó chính xác là thứ mà tôi đang tìm kiếm.
Stumpy Joe Pete

17

P-giá trị ít hữu ích hơn họ có vẻ. Ước tính thường là một cách tiếp cận tốt hơn ngay cả trong đánh giá mức độ phù hợp. Người ta có thể sử dụng khoảng cách Kolmogorov - Smirnov làm thước đo. Thật khó để sử dụng nó mà không có lỗi. Một cách tiếp cận thận trọng sẽ lấy giới hạn tin cậy trên của khoảng cách KS để hướng dẫn mô hình hóa. Điều này sẽ (đúng) dẫn đến rất nhiều sự không chắc chắn, điều này có thể khiến người ta kết luận rằng việc chọn một phương pháp mạnh mẽ ngay từ đầu được ưu tiên. Với ý nghĩ đó và quay trở lại mục tiêu ban đầu, khi người ta so sánh phân phối theo kinh nghiệm với hơn 2 dạng tham số có thể, phương sai thực sự của phân phối được trang bị cuối cùng không có độ chính xác tốt hơn hàm phân phối tích lũy theo kinh nghiệm. Vì vậy, nếu không có lý thuyết chủ đề để thúc đẩy lựa chọn phân phối,


3
Tôi không thể hiểu lý do tại sao điều này đã bị hạ thấp; có một số điểm tuyệt vời ở đây. Nó sẽ giúp nếu người hạ cấp sẽ giải thích những gì họ cho là vấn đề. Có lẽ chúng ta sẽ học được điều gì đó.
Glen_b -Reinstate Monica

9

2

Tôi nghĩ rằng đây là một ví dụ hoàn hảo để minh họa sự khác biệt giữa công việc học tập và ra quyết định thực tế. Trong môi trường học thuật (nơi tôi đang ở), bạn có thể tranh luận bất kỳ cách nào bạn muốn miễn là nó được người khác cho là hợp lý. Do đó, về cơ bản, chúng ta kết thúc với việc có những món hời vô tận, đôi khi tròn trịa với nhau. Theo nghĩa đó, điều này cung cấp cho mọi người một cái gì đó để làm việc.

Tuy nhiên, nếu bạn thực sự ở một vị trí để thực sự đưa ra quyết định, thì câu trả lời là có hoặc không. Sự thiếu quyết đoán sẽ làm tổn hại danh tiếng của bạn như một người ra quyết định. Tất nhiên, việc đưa ra lựa chọn không chỉ liên quan đến thống kê mà đôi khi còn là yếu tố đánh bạc và nhảy vọt niềm tin. Tóm lại, loại bài tập này ở một mức độ nào đó hữu ích cho việc ra quyết định. Tuy nhiên, liệu chỉ dựa vào quyết định của bạn trong bài kiểm tra giả thuyết này là một câu chuyện hoàn toàn khác.


2
Điều đó không đúng IMHO. Cuốn sách hay nhất mà tôi đã đọc giải thích tại sao một người đưa ra quyết định tốt hơn bằng cách luôn kết hợp sự không chắc chắn vào mọi giai đoạn của quyết định là Tín hiệu và tiếng ồn của Nate Silver . Ví dụ: người chơi poker chiến thắng nhất là những người không bao giờ tin rằng xác suất của một ván bài nào đó là 0 hoặc 1.
Frank Harrell

1
@FrankHarrell Tôi đang tự hỏi làm thế nào bạn sẽ trả lời các câu hỏi như có nên xây đường hay không, có nên mua cổ phần không. Đó là một câu hỏi có hoặc không. Đó là những loại câu hỏi mà những người ra quyết định thực tế cần trả lời.
LaTeXFan

1
@FrankHarrell Chắc chắn số liệu thống kê đóng vai trò giúp đưa ra quyết định. Tuy nhiên, từ quan điểm mạnh mẽ, tất cả những gì chúng tôi đang làm là gần đúng với thực tế. Có rất nhiều thứ toán học đơn giản không thể giải thích được. Và đây là nơi mà các phương tiện khác phát huy như bản năng.
LaTeXFan

1
P

1
@FrankHarrell Cảm ơn bạn đã bình luận. Tôi nghĩ rằng sự khác biệt của bạn giữa các quyết định không thể hủy bỏ và mặt khác là một điểm tốt. Về bản chất, đó là về chiều thời gian của vấn đề. Trong một khoảng thời gian ngắn, hầu hết các quyết định là không thể hủy bỏ. Đây là những gì đã xảy ra khi mọi người được đưa vào vị trí để thực hiện cuộc gọi. Mặt khác, nếu chúng ta có thể có một cái nhìn dài hạn hơn, thì bạn đã đúng - tốt hơn là có một hệ thống có thể đáp ứng với những thay đổi trong hoàn cảnh. Mặc dù vậy, một số thiệt hại, cả về tài chính hoặc vật chất, là không thể tránh khỏi.
LaTeXFan

2

Vấn đề là từ quan điểm thống kê thuần túy, bạn không thể chấp nhận , nhưng trong thực tế, bạn làm. Ví dụ, nếu bạn đang ước tính rủi ro của danh mục đầu tư bằng cách sử dụng rủi ro giá trị hoặc các biện pháp tương tự, phân phối lợi nhuận của danh mục đầu tư là khá quan trọng. Đó là bởi vì rủi ro được xác định bởi đuôi phân phối của bạn.

Trong các trường hợp sách giáo khoa, phân phối bình thường thường được sử dụng cho các ví dụ. Tuy nhiên, nếu lợi nhuận danh mục đầu tư của bạn có đuôi béo (mà họ thường làm), thì xấp xỉ phân phối bình thường sẽ đánh giá thấp các rủi ro. Do đó, điều quan trọng là kiểm tra lợi nhuận và quyết định xem bạn sẽ sử dụng xấp xỉ bình thường hay không. Lưu ý, điều này không nhất thiết có nghĩa là chạy các kiểm tra thống kê, nó có thể là các lô QQ hoặc các phương tiện khác. Tuy nhiên, bạn phải đưa ra quyết định tại một số điểm dựa trên phân tích lợi nhuận và mô hình hoàn trả của bạn và sử dụng bình thường hoặc không.

Do đó, cho tất cả các mục đích thực tế không từ chối thực sự có nghĩa là chấp nhận mặc dù không theo nghĩa thống kê nghiêm ngặt. Bạn sẽ chấp nhận bình thường và sử dụng nó trong tính toán của mình, điều này sẽ được trình bày cho quản lý cấp trên hàng ngày, cho các nhà quản lý, kiểm toán viên của bạn, v.v. Việc không từ chối trong trường hợp này có ảnh hưởng sâu rộng theo mọi nghĩa, vì vậy nó là như vậy hoặc mạnh hơn kết quả thống kê ngớ ngẩn.


0

Không có bị cáo tại tòa là vô tội. Họ có tội (từ chối giả thuyết vô tội) hoặc không có tội (không từ chối giả định vô tội).

Không có bằng chứng không phải là bằng chứng vắng mặt.


-1

Vì vậy, câu hỏi của tôi là, điểm thực hiện kiểm tra như vậy là gì nếu chúng ta không thể kết luận liệu dữ liệu có tuân theo phân phối nhất định không?

Nếu bạn có một phân phối thay thế (hoặc bộ phân phối) trong tâm trí để so sánh thì đó có thể là một công cụ hữu ích.

Tôi sẽ nói: Tôi có một bộ các quan sát trong tay mà tôi nghĩ có thể được phân phối bình thường. (Tôi nghĩ vậy bởi vì tôi đã thấy các quan sát về một nhân vật tương tự mà tôi hài lòng theo đường cong bình thường.) Tôi cũng nghĩ rằng họ có thể không theo đường cong bình thường nhưng một số đường cong không bình thường. (Tôi nghĩ rằng điều này có thể là do tôi đã thấy các cơ quan dữ liệu như thế này không đi theo đường cong thông thường, ví dụ như, xiên, v.v.) 3 Sau đó, tôi thực hiện một cuộc điều tra dọc theo các dòng dưới đây: Nếu các quan sát đến từ một phân phối bình thường, mức độ thường xuyên như vậy khi tôi xảy ra? Kết luận là, "Khá hiếm khi - chỉ hai lần trong một trăm." Sau đó tôi thực hiện một cuộc điều tra, không nêu và không tính toán, nhưng tôi tin rằng hoàn toàn cần thiết cho việc hoàn thành một đối số hợp lệ, như sau: Nếu phân phối không bình thường, trải nghiệm này, được đánh giá bởi sự khác biệt chi bình phương, sẽ xảy ra khá thường xuyên. (Tất cả những gì tôi phải làm là tưởng tượng rằng đường cong không bình thường có đặc điểm sai lệch quan sát được của phân phối.) Do đó tôi bác bỏ giả thuyết bình thường theo nguyên tắc rằng tôi chấp nhận rằng một trong những giả thuyết được xem xét thay thế mà sự kiện có kinh nghiệm sẽ nhiều hơn thường xuyên. Tôi nói rằng sự bác bỏ giả thuyết khống chỉ có giá trị đối với sự sẵn sàng chấp nhận một sự thay thế (sự thay thế này không nhất thiết được xác định chính xác trong tất cả các khía cạnh). Do đó, tôi bác bỏ giả thuyết bình thường theo nguyên tắc rằng tôi chấp nhận rằng một trong những giả thuyết được xem xét thay thế mà sự kiện có kinh nghiệm sẽ xảy ra thường xuyên hơn. Tôi nói rằng sự bác bỏ giả thuyết khống chỉ có giá trị đối với sự sẵn sàng chấp nhận một sự thay thế (sự thay thế này không nhất thiết được xác định chính xác trong tất cả các khía cạnh). Do đó, tôi bác bỏ giả thuyết bình thường theo nguyên tắc rằng tôi chấp nhận rằng một trong những giả thuyết được xem xét thay thế mà sự kiện có kinh nghiệm sẽ xảy ra thường xuyên hơn. Tôi nói rằng sự bác bỏ giả thuyết khống chỉ có giá trị đối với sự sẵn sàng chấp nhận một sự thay thế (sự thay thế này không nhất thiết được xác định chính xác trong tất cả các khía cạnh).

Bây giờ dòng lý luận mà tôi đã mô tả, trái ngược với những gì tôi đã mô tả như bình thường hơn, sẽ giải thích tại sao quyết định của tôi khác với thông lệ trong trường hợp thứ ba và thứ tư.

Đối với trường hợp thứ ba, sau khi tôi thử kiểm tra chi bình phương, tôi đã đi đến kết luận, rằng trên giả thuyết không có sự khác biệt so với tính quy tắc, việc phân phối với một bình phương lớn như vậy sẽ hiếm khi xảy ra. Cho đến nay chúng tôi đang ở vị trí chính xác như chúng tôi đã ở thời điểm này trong trường hợp thứ hai. Nhưng bây giờ hãy để tôi kiểm tra xác suất rằng trải nghiệm này sẽ xảy ra nếu nguồn cung ban đầu là không bình thường. Kinh nghiệm này sẽ xảy ra thường xuyên hơn? Không có lý do để nói như vậy. Phân phối hoàn toàn đối xứng, nghĩa là độ lệch bằng 0 (có chính xác 50% các trường hợp ở mỗi bên của giá trị trung bình) và kiểm tra sự khác biệt về tần số dự kiến ​​trong các lớp khác nhau cho thấy chúng không phải là hệ thống thái độ, tức là độ lệch cộng và độ lệch trừ xen kẽ theo thứ tự ngẫu nhiên. Phân phối như vậy không được mong đợi thường xuyên từ bất kỳ đường cong bất thường hợp lý nào. Do đó, chúng tôi không có lý do gì để từ chối đường cong thông thường.

Quan điểm của tôi là không bao giờ có bất kỳ lý do hợp lệ nào để bác bỏ giả thuyết khống trừ khi sẵn sàng đưa ra một lý do khác.

Một số khó khăn của việc giải thích gặp phải trong việc áp dụng bài kiểm tra Chi-Square. Joseph Berkson. Tạp chí của Hiệp hội Thống kê Hoa Kỳ. Tập 33, số 203 (tháng 9 năm 1938), trang 526-536


1
Báo giá / giấy Berkson có vẻ phù hợp và hợp lý với tôi. Một kiến ​​thức phổ biến là với cỡ mẫu đủ lớn, mọi phân phối giả định sẽ bị từ chối, ngay cả khi chỉ do lỗi đo lường. Nếu chúng tôi thấy rằng dữ liệu là không thể theo một số phân phối giả định, chúng ta không nên cố gắng tìm ra sự lựa chọn tốt hơn sẽ là gì? Và nếu chúng ta không thể biện minh cho những lựa chọn khác này, chúng ta nên giả sử, nếu cần thiết, phân phối đơn giản nhất có thể? Bất cứ ai có thể giải thích tại sao điều này đã bị hạ cấp?
Sống động
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.