Có bất kỳ bài kiểm tra thống kê nào về bí mật của người Viking với công suất rất thấp không?


11

Lý lịch

Trong khoa học máy tính, toán học, và đôi khi trong các lĩnh vực khác, các ví dụ bí mật của bí mật chỉ có thể mang tính giải trí, nhưng hữu ích để minh họa các khái niệm nhất định, ví dụ:

  • BogosortSlowsort là các thuật toán sắp xếp rất kém hiệu quả có thể được sử dụng để hiểu các thuộc tính của thuật toán, đặc biệt khi so sánh với các thuật toán sắp xếp khác.

  • Các ngôn ngữ lập trình bí truyền cho thấy mức độ sâu rộng của khái niệm ngôn ngữ lập trình và giúp đánh giá cao các ngôn ngữ lập trình tốt.

  • Hàm Weierstraßhàm Dirichlet chủ yếu được sử dụng để minh họa cho những quan niệm sai lầm nhất định về khái niệm tính liên tục.

Tôi hiện đang chuẩn bị một số bài giảng về việc sử dụng các bài kiểm tra giả thuyết và nghĩ rằng việc kiểm tra với công suất rất thấp (nhưng không có sai sót nào khác) sẽ giúp minh họa khái niệm sức mạnh thống kê. (Tất nhiên, tôi vẫn phải tự quyết định xem một ví dụ cụ thể có hữu ích cho khán giả của mình hay chỉ gây nhầm lẫn.)

Câu hỏi thực tế

Có bất kỳ thử nghiệm thống kê với sức mạnh thấp cố ý, cụ thể hơn:

  • Bài kiểm tra phù hợp với khuôn khổ chung của các bài kiểm tra giả thuyết, nghĩa là nó hoạt động với giả thuyết không, có các yêu cầu và trả về  giá trị p (đúng) .
  • Nó không có ý định / đề xuất cho ứng dụng nghiêm trọng.
  • Nó có công suất rất thấp (do lỗi thiết kế có chủ ý và không phải do mẫu thấp hoặc kích thước hiệu ứng).

Nếu về cơ bản bạn có thể lập luận rằng một bài kiểm tra như vậy không thể tồn tại, tôi cũng sẽ coi đây là một câu trả lời hợp lệ cho câu hỏi của mình. Mặt khác, nếu có rất nhiều thử nghiệm như vậy tồn tại, tôi quan tâm đến thử nghiệm hiệu quả nhất, nghĩa là nó có thể dễ dàng truy cập và có hiệu quả nổi bật.

Lưu ý rằng tôi không yêu cầu lựa chọn chung về các lỗi thống kê (hái anh đào, v.v.) hoặc tương tự.

Những gì tôi tìm thấy cho đến nay

Tìm kiếm trên Internet không trả lại gì cho tôi.

Mọi nỗ lực để xây dựng một cái gì đó như thế này đã kết thúc trong một số thử nghiệm hiện tại (hữu ích) hoặc định dạng không phải là thử nghiệm thông thường. Ví dụ, tôi đã nghĩ về một thử nghiệm xem liệu một quần thể có trung vị dương chỉ trả về có hay không nếu tất cả các mẫu đều dương tính; nhưng kiểm tra đó không trả về  giá trị p và do đó không phù hợp với khung kiểm tra thông thường. Nếu tôi chỉ tính các dấu hiệu dương và âm là một thống kê kiểm tra (và tính các  giá trị p tương ứng), thì tôi kết thúc bằng kiểm tra dấu hiệu , đây là một thử nghiệm hợp lý.


2
Là toán học nhiều hơn, các ví dụ "bí truyền" (có rất nhiều) có xu hướng là các phản ứng cụ thể đối với những hiểu lầm phổ biến; một số sách giáo khoa có chứa các ví dụ như vậy. Vì thế, câu hỏi của bạn về cơ bản là một câu hỏi loại "danh sách lớn" và vì vậy quá rộng (mặc dù bạn cần lưu ý rằng một số người dùng đã kết luận câu hỏi không rõ ràng); nếu bạn có thể làm rõ câu hỏi của mình và thu hẹp phạm vi của nó, nó có thể phù hợp với trang web hơn.
Glen_b -Reinstate Monica

1
Công suất thấp so với cái gì? Lehmann đã đưa ra một ví dụ về một thử nghiệm tỷ lệ khả năng tổng quát có sức mạnh thấp hơn theo bất kỳ giả thuyết thay thế nào so với dưới null.
Scortchi - Tái lập Monica

2
Bất kỳ công cụ ước tính ngớ ngẩn nào mà bạn áp dụng Rao-Blackwellization đều có thể được sử dụng làm thống kê kiểm tra. Ví dụ, có quan sát đầu tiên trong mẫu, được sử dụng làm công cụ ước tính giá trị trung bình. Khi Rao-Blackwellized, bạn có được giá trị trung bình mẫu. Tôi đã phải làm nhiều bài tập như thế này trong lớp. Dù sao, thống kê này có thể được sử dụng thay cho ý nghĩa mẫu trong một cái gì đó giống như một bài kiểm tra . Nhưng không, tôi không thể nghĩ bất cứ điều gì trực tiếp ở dạng bạn đang tìm kiếm, hoặc tôi sẽ viết một câu trả lời, không phải là một bình luận. Nhưng phải có một cái gì đó, minh họa sự thất bại của một phương pháp chung để xây dựng thử nghiệm. t
dùng54038

1
Tôi sẽ khai thác giấy Lehmann khi tôi ở máy tính. Sức mạnh của một bài kiểm tra dưới null chỉ là kích thước của bài kiểm tra.
Scortchi - Tái lập Monica

3
Một bài kiểm tra ví dụ được sử dụng trong một lớp học mà tôi là học sinh (nhiều năm trước) là "lăn một cái chết 20 mặt công bằng và từ chối nếu bạn lăn 1" (như một phần của cuộc thảo luận về các đường cong sức mạnh). Điều này tất nhiên bỏ qua dữ liệu, nhưng là một thử nghiệm "hợp lệ" ở chỗ nó không có tỷ lệ lỗi loại I mong muốn (chiếm 5% trong bối cảnh ví dụ được đưa ra).
Glen_b -Reinstate Monica

Câu trả lời:


7

Có một hệ quả nhỏ đáng chú ý đối với bổ đề Neyman, Pear Pearson (bằng chứng trong Geisser (2006), Các chế độ suy luận thống kê tham số , Ch 4.4): xác định ít nhất level- mạnh mẽ test, , của null giả thuyết mật độ vs mật độ từ dữ liệu .

Eϕ(X)=α
ϕ(x)={0 when f0(x)<kf1(x)1 when f0(x)>kf1(x)
αϕH0:f0H1:f1x

Từ kết quả này, bạn có thể rút ra các phép thử đồng nhất ít mạnh nhất, mạnh nhất cục bộ, ít mạnh nhất tương tự, mạnh nhất và ít mạnh nhất (ý tôi là những phép thử có công suất thấp hơn dưới bất kỳ thay thế nào so với dưới null). Nếu bạn đã có một sức mạnh đồng đều nhất, & c. kiểm tra, chỉ cần nhân số liệu thống kê kiểm tra của bạn với -1 để duy trì phân vùng không gian mẫu mà nó tạo ra trong khi đảo ngược thứ tự của các phân vùng.


Có lẽ, như @ user54038 gợi ý, "thất bại của một phương pháp xây dựng thử nghiệm chung" có thể thú vị hơn. Lehmann (1950), "Một số nguyên tắc của lý thuyết kiểm định các giả thuyết thống kê", Ann. Môn Toán. Thống kê. , 21 , 1, thuộc tính ví dụ sau cho Stein:

Đặt là biến ngẫu nhiên có khả năng nhận các giá trị với xác suất như đã chỉ ra:X0,±1,±2

22110Hypothesis H:α2α212α12ααAlternatives:pC(1p)C1C1α(12α)1C1α(12α)α1c1α
Ở đây, , , là các hằng số , và nằm trong khoảng .αC0<α12α2α<C<αp[0,1]

Người ta mong muốn kiểm tra giả thuyết ở mức ý nghĩa . Kiểm tra tỷ lệ khả năng từ chối khi , và do đó sức mạnh của nó là so với mỗi phương án. Vì , thử nghiệm này thực sự tệ hơn vô dụng, đối với thử nghiệm có sức mạnh có thể thu được mà không cần quan sát , chỉ đơn giản bằng cách sử dụng bảng số ngẫu nhiên.HαX=±2CC<ααX

Lưu ý rằng đó là thử nghiệm khả năng tổng quát mà anh ta đang xem xét, với trong vai trò của một tham số phiền toái sẽ được tối đa hóa. Vì vậy, khi hoặc , hoặc , và tỷ lệ khả năng sẽ đến trong cả hai trường hợp; đối với bất kỳ giá trị nào khác của đó là giá trị thấp hơn của .pX=2X=2p^=1p^=02CαX1C1α


5

(Liên quan đến nhận xét của @Scortchi)

Giả sử và chúng tôi muốn kiểm tra giả thuyếtXN(μ,1)

H0:μ=0H1:μ0

Vì lợi ích của chủ nghĩa thực tế, hãy tăng dữ liệu của chúng tôi bằng một "đồng xu lật" độc lập trong đó được biết và không nhỏ hơn mức ý nghĩa (tức là ). Xem xét các khu vực từ chối của mẫu:ZBernoulli(p)pαp[α,1]

R={(X,Z) | z=1 |x|>Φ1(α2p)}

Bằng cách xây dựng, đây là một thử nghiệm hợp lệ về kích thước .α

P(XR | μ=0)=P(Z=1 , |X|>Φ1(α2p))=P(Z=1)P(|X|>Φ1(α2p))=pαp=α

Sức mạnh của thử nghiệm này tuy nhiên không bao giờ có thể nhiều hơn . Ví dụ: giả sử dữ liệu được quan sát của chúng tôi là . Rõ ràng là giả thuyết null nên bị từ chối, nhưng vì đồng xu của chúng tôi "hiển thị đuôi", chúng tôi không từ chối null. Đặt dẫn đến một ví dụ sillier thậm chí trong đó vùng loại bỏ hoàn toàn không phụ thuộc vào , nhưng vẫn là vùng Loại bỏ hợp lệ với kích thước .p(x,z)=(1000000,0)p=αXα

Một câu hỏi tương tự có thể được đưa ra như bài tập về nhà bằng cách thay đổi giao lộ thành liên minh trong khu vực từ chối. Vùng này ít mạnh hơn vùng không có , nhưng hợp lý hơn theo nghĩa là sức mạnh không có giới hạn trên.Z


2
(+1) Liên quan chặt chẽ vì có thống kê phụ trợ một chiều , bạn có thể phân phối với lật đồng xu bằng cách để , trong đó là chức năng phân phối của . Z = 1 ( S < F - 1 S ( p ) ) F S ( ) SSZ=1(S<FS1(p))FS()S
Scortchi - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.