Bổ đề Neyman-Pearson


21

Tôi đã đọc bổ đề Neyman về Pearson từ cuốn sách Giới thiệu về Lý thuyết Thống kê của Tâm trạng, Graybill và Boes. Nhưng tôi chưa hiểu bổ đề.

Bất cứ ai có thể vui lòng giải thích bổ đề cho tôi bằng những từ đơn giản? Nó nói gì?

Bổ đề Neyman-Pearson: Đặt là một mẫu ngẫu nhiên từ , trong đó là một trong hai giá trị đã biết và và để được sửa .X1,,Xnf(x;θ)θθ0θ10<α<1

Đặt là hằng số dương và là tập con của thỏa mãn: Sau đó, phép thử tương ứng với vùng tới hạn là phép thử mạnh nhất về kích thước của so vớikCX

(1)Pθ0[(X1,,Xn)C]=α
(2)λ=L(θ0;x1,,xn)L(θ1;x1,,xn)=L0L1kif (x1,,xn)C
andλk if (x1,,xn)C¯
γCαH0:θ=θ0H1:θ=θ1

Thể hiện bằng lời, tôi đã hiểu rằng hai tiêu chí chỉ định

(1) P [bác bỏ giả thuyết khống | giả thuyết null là đúng] = mức ý nghĩa

(2) bác bỏ giả thuyết khống khi tỷ lệ khả năng , một số hằng số dương if rơi vào khu vực quan trọngλk(x1,,xn)

Sau đó, bài kiểm tra là bài kiểm tra mạnh mẽ nhất của một giả thuyết đơn giản .

  • Tại sao nó chỉ dành cho những giả thuyết đơn giản? Nó không thể là giả thuyết tổng hợp? Là lời giải thích của tôi trong lời nói đúng?

Câu trả lời:


7

Tôi nghĩ rằng bạn hiểu rõ bổ đề.

Tại sao nó không hoạt động cho một sự thay thế tổng hợp? Như bạn có thể thấy trong tỷ lệ khả năng, chúng ta cần cắm (các) tham số cho giả thuyết thay thế. Nếu thay thế là hỗn hợp, bạn sẽ cắm tham số nào?


1
Bạn có thể làm cho nó hoạt động cho các lựa chọn thay thế tổng hợp nếu tỷ lệ khả năng là đơn điệu.
Michael R. Chernick

11

Gần đây tôi đã viết một mục trong một blog được liên kết với nội dung bổ đề Neyman Pearson bằng những từ đơn giản và cung cấp một ví dụ. Tôi tìm thấy ví dụ mở mắt theo nghĩa cung cấp một trực giác rõ ràng về bổ đề. Như thường lệ trong xác suất, nó dựa trên hàm khối lượng xác suất rời rạc nên dễ thực hiện hơn so với khi làm việc với pdf. Ngoài ra, hãy tính đến tôi xác định tỷ lệ khả năng là khả năng của giả thuyết thay thế so với giả thuyết khống, trái với tuyên bố bổ đề của bạn. Giải thích là như nhau, nhưng thay vì ít hơn bây giờ lớn hơn. Tôi hy vọng nó sẽ giúp ...

Những người bạn làm việc trong phân tích dữ liệu và đã trải qua một số khóa học thống kê có thể đã biết đến bổ đề Neyman-Pearson (NP-lemma). Thông điệp rất đơn giản, trình diễn không quá nhiều nhưng điều tôi luôn thấy khó khăn là có được cảm giác thông thường về những gì nó nói về. Đọc một cuốn sách có tên "Lỗi thường gặp trong thống kê" của PIGood và JWHardin tôi đã nhận được một lời giải thích và ví dụ giúp tôi có được cảm giác đặc biệt này về NP-bổ đề mà tôi luôn bỏ qua.

Trong ngôn ngữ không hoàn hảo về mặt toán học 100%, điều Neyman-Pearson nói với chúng ta là bài kiểm tra mạnh nhất mà người ta có thể đưa ra để xác nhận một giả thuyết nhất định trong một mức ý nghĩa nhất định được đưa ra bởi một khu vực từ chối được thực hiện bởi tất cả các quan sát có thể đến từ bài kiểm tra này với một tỷ lệ khả năng trên một ngưỡng nhất định ... woahhh! Ai bảo là dễ!

Giữ bình tĩnh và giải mã bổ đề:

  1. Giả thuyết . Trong thống kê, người ta luôn làm việc với hai giả thuyết rằng một bài kiểm tra thống kê nên từ chối hoặc không từ chối. Có giả thuyết khống, sẽ không bị bác bỏ cho đến khi bằng chứng mẫu chống lại nó đủ mạnh. Ngoài ra còn có giả thuyết thay thế, cái mà chúng ta sẽ đưa ra nếu null dường như là sai.
  2. Sức mạnh của một bài kiểm tra (còn gọi là độ nhạy) cho chúng ta biết tỷ lệ số lần chúng ta sẽ từ chối chính xác giả thuyết khống khi nó sai. Chúng tôi muốn các thử nghiệm mạnh mẽ, vì vậy hầu hết thời gian chúng tôi bác bỏ giả thuyết khống chúng tôi đã đúng!
  3. Mức độ quan trọng của một bài kiểm tra (còn gọi là tỷ lệ dương tính giả) cho chúng ta biết tỷ lệ số lần chúng ta sẽ từ chối sai giả thuyết khống khi nó đúng. Chúng tôi muốn một mức ý nghĩa nhỏ vì vậy hầu hết các lần chúng tôi bác bỏ giả thuyết khống chúng tôi không sai!
  4. Vùng loại bỏ , với tất cả các kết quả có thể có của thử nghiệm, vùng loại bỏ bao gồm các kết quả đó sẽ khiến chúng ta từ chối giả thuyết khống có lợi cho phương án thay thế.
  5. Khả năng là xác suất nhìn thấy kết quả quan sát được của thử nghiệm cho rằng giả thuyết khống (Khả năng của giả thuyết khống) hoặc giả thuyết thay thế (Khả năng của giả thuyết thay thế) là đúng.
  6. Tỷ lệ khả năng , là tỷ lệ của khả năng giả thuyết thay thế chia cho khả năng giả thuyết không. Nếu kết quả kiểm tra rất được mong đợi nếu giả thuyết null là đúng so với giải pháp thay thế, tỷ lệ khả năng sẽ nhỏ.

Đủ định nghĩa! (mặc dù nếu bạn nhìn chúng cẩn thận, bạn sẽ nhận ra chúng rất sâu sắc!). Hãy đi đến những gì Neyman và Pearson nói với chúng tôi: nếu bạn muốn có bài kiểm tra thống kê tốt nhất có thể theo quan điểm về sức mạnh của nó, hãy xác định vùng loại bỏ bằng cách đưa vào các kết quả kiểm tra có tỷ lệ khả năng cao nhất và tiếp tục thêm bài kiểm tra kết quả cho đến khi bạn đạt được một giá trị nhất định cho số lần thử nghiệm của bạn sẽ từ chối giả thuyết khống khi nó đúng (mức ý nghĩa).

Hãy xem một ví dụ mà hy vọng mọi thứ sẽ kết hợp với nhau. Ví dụ này dựa trên cuốn sách được đề cập ở trên. Nó hoàn toàn được tạo ra bởi chính tôi vì vậy nó không nên được xem là phản ánh bất kỳ ý kiến ​​thực tế hoặc cá nhân.

Hãy tưởng tượng người ta muốn xác định xem ai đó có ủng hộ việc đặt hạn ngạch nhập cư (giả thuyết không) hay không (giả thuyết thay thế) bằng cách hỏi cảm xúc của anh ấy / cô ấy so với Liên minh châu Âu.

Hãy tưởng tượng chúng ta đã biết phân phối xác suất thực tế cho cả hai loại người liên quan đến câu trả lời cho câu hỏi của chúng tôi:

nhập mô tả hình ảnh ở đây

Chúng ta hãy tưởng tượng rằng chúng ta sẵn sàng chấp nhận một lỗi dương tính giả là 30%, nghĩa là, 30% thời gian chúng ta sẽ từ chối giả thuyết khống và cho rằng người được phỏng vấn chống lại hạn ngạch khi anh ấy / cô ấy thực sự dành cho họ. Làm thế nào chúng ta sẽ xây dựng thử nghiệm?

Theo Neyman và Pearson, trước tiên chúng tôi sẽ nhận kết quả với tỷ lệ khả năng cao nhất. Đây là câu trả lời của "thực sự thích EU" với tỷ lệ 3. Với kết quả này, nếu chúng tôi cho rằng ai đó chống lại hạn ngạch khi anh ấy / cô ấy nói rằng anh ấy "thực sự thích EU", 10% thời gian chúng tôi sẽ chỉ định đối với hạn ngạch người chống lại (ý nghĩa). Tuy nhiên, chúng tôi sẽ chỉ được phân loại chính xác chống lại người có hạn ngạch 30% thời gian (sức mạnh) vì không phải ai trong nhóm này cũng có cùng quan điểm về EU.

Đây dường như là một kết quả kém khi có liên quan đến quyền lực. Tuy nhiên, bài kiểm tra không có nhiều sai lầm khi phân loại sai cho người có hạn ngạch (ý nghĩa). Khi chúng tôi linh hoạt hơn về tầm quan trọng, chúng ta hãy tìm kết quả thử nghiệm tiếp theo mà chúng ta nên thêm vào túi câu trả lời bác bỏ giả thuyết khống (vùng loại bỏ).

Câu trả lời tiếp theo với tỷ lệ khả năng cao nhất là "giống như EU". Nếu chúng tôi sử dụng các câu trả lời "thực sự thích" và "thích" EU làm kết quả kiểm tra cho phép chúng tôi bác bỏ giả thuyết khống về ai đó là hạn ngạch, chúng tôi sẽ phân loại sai cho hạn ngạch không phải là 30% thời gian (10% từ "thực sự thích" và 20% từ "thích") và chúng tôi sẽ phân loại chính xác theo hạn ngạch mọi người 65% thời gian (30% từ "thực sự thích" và 35% từ "thích"). Trong thuật ngữ thống kê: tầm quan trọng của chúng tôi tăng từ 10% đến 30% (xấu!) Trong khi sức mạnh của bài kiểm tra của chúng tôi tăng từ 30% lên 65% (tốt!).

Đây là một tình huống tất cả các bài kiểm tra thống kê có. Không có thứ gì như bữa trưa miễn phí ngay cả trong thống kê! Nếu bạn muốn tăng sức mạnh cho bài kiểm tra của mình, bạn phải làm điều đó với chi phí tăng mức độ quan trọng. Hoặc nói một cách đơn giản hơn: bạn muốn phân loại tốt hơn những người tốt, bạn sẽ làm được với chi phí có nhiều kẻ xấu trông tốt hơn!

Về cơ bản, bây giờ chúng ta đã hoàn thành! Chúng tôi đã tạo ra thử nghiệm mạnh mẽ nhất có thể với dữ liệu đã cho và mức ý nghĩa 30% bằng cách sử dụng nhãn "thực sự thích" và "thích" để xác định xem ai đó có chống lại hạn ngạch không ... chúng tôi có chắc không?

Điều gì sẽ xảy ra nếu chúng ta đưa vào bước thứ hai sau khi câu trả lời "thực sự thích" được chọn, câu trả lời "thờ ơ" thay vì "thích"? Tầm quan trọng của bài kiểm tra sẽ giống như trước đây ở mức 30%: 10% cho người có hạn ngạch trả lời "thực sự" thích và 20% cho người có hạn ngạch trả lời "không thích". Cả hai bài kiểm tra sẽ rất tệ trong việc phân loại sai cho các cá nhân hạn ngạch. Tuy nhiên, sức mạnh sẽ trở nên tồi tệ hơn! Với thử nghiệm mới, chúng tôi sẽ có sức mạnh 50% thay vì 65% chúng tôi có trước đây: 30% từ "thực sự thích" và 20% từ "thờ ơ". Với thử nghiệm mới, chúng tôi sẽ ít chính xác hơn trong việc xác định chống lại các cá nhân hạn ngạch!

Ai đã giúp đỡ ở đây? Neyman-Person khả năng tỷ lệ ý tưởng đáng chú ý! Mỗi lần trả lời câu trả lời với tỷ lệ khả năng cao nhất sẽ đảm bảo cho chúng tôi rằng chúng tôi đưa vào thử nghiệm mới càng nhiều sức mạnh càng tốt (tử số lớn) trong khi vẫn giữ được tầm quan trọng (mẫu số nhỏ)!


Wow, chỉ cần nhìn thấy mọi thứ trong bảng đó đã giúp một tấn, và đề cập đến các phần của nó đã giúp một tấn. Cảm ơn bạn!
Yatharth Agarwal

5

Bối cảnh

(Trong phần này tôi sẽ giải thích về kiểm tra giả thuyết, gõ một và hai lỗi, v.v., theo phong cách của riêng tôi. Nếu bạn cảm thấy thoải mái với tài liệu này, hãy chuyển sang phần tiếp theo)

Bổ đề Neyman-Pearson xuất hiện trong vấn đề kiểm tra giả thuyết đơn giản . Chúng tôi có hai phân bố xác suất khác nhau trên một không gian chung : và , được gọi là null và giả thuyết thay thế. Dựa trên một quan sát duy nhất , chúng tôi phải đưa ra dự đoán về phân phối xác suất nào trong hai phân phối xác suất có hiệu lực. Một thử nghiệm do đó là một chức năng để mỗi chuyển nhượng đoán của một trong hai "null giả thuyết" hoặc "giả thuyết thay thế". Một thử nghiệm rõ ràng có thể được xác định với khu vực mà nó trả về "thay thế", vì vậy chúng tôi chỉ tìm kiếm các tập hợp con (sự kiện) của không gian xác suất.ΩP0P1ωΩwω

Thông thường trong các ứng dụng, giả thuyết null tương ứng với một số loại hiện trạng, trong khi giả thuyết thay thế là một hiện tượng mới mà bạn đang cố chứng minh hoặc bác bỏ là có thật. Ví dụ, bạn có thể đang thử nghiệm ai đó cho sức mạnh tâm linh. Bạn chạy thử nghiệm tiêu chuẩn với các thẻ có dòng nguệch ngoạc hoặc không, và làm cho chúng đoán một số lần nhất định. Giả thuyết khống là họ sẽ nhận được không quá một trong năm quyền (vì có năm thẻ), giả thuyết thay thế là họ là người tâm lý và có thể có nhiều quyền hơn.

Những gì chúng tôi muốn làm là giảm thiểu khả năng mắc lỗi. Thật không may, đó là một khái niệm vô nghĩa. Có hai cách bạn có thể phạm sai lầm. Giả thuyết null là đúng và bạn lấy mẫu trong khu vực "thay thế" của bài kiểm tra của bạn hoặc giả thuyết thay thế là đúng và bạn lấy mẫu khu vực "null". Bây giờ, nếu bạn sửa một vùng của không gian xác suất (một bài kiểm tra), thì các số vàωMộtP0(Một)P1(Mộtc), xác suất tạo ra hai loại lỗi đó, hoàn toàn được xác định rõ ràng, nhưng vì bạn không có khái niệm trước về "xác suất giả thuyết không / thay thế là đúng", nên bạn không thể có được xác suất "có ý nghĩa" sai lầm". Vì vậy, đây là một tình huống khá điển hình trong toán học, nơi chúng ta muốn "tốt nhất" của một số loại đối tượng, nhưng khi bạn nhìn kỹ, không có "tốt nhất". Trên thực tế, những gì chúng tôi đang cố gắng làm là giảm thiểu trong khi tối đa hóa , những mục tiêu rõ ràng đối lập nhau.P0(Một)P1(Một)

Hãy ghi nhớ ví dụ về bài kiểm tra khả năng ngoại cảm, tôi muốn đề cập đến loại sai lầm trong đó null là đúng nhưng bạn kết luận phương án thay thế là đúng là " ảo tưởng " (bạn tin rằng nhà ngoại cảm của anh chàng nhưng anh ta thì không), và loại sai lầm khác là "sự lãng quên ".

Bổ đề

Cách tiếp cận của bổ đề Neyman-Pearson là như sau: chúng ta hãy chọn một số xác suất ảo tưởng tối đa mà chúng ta sẵn sàng chịu đựng, và sau đó tìm thử nghiệm có xác suất tối thiểu của sự lãng quên trong khi thỏa mãn giới hạn trên. Kết quả là các xét nghiệm như vậy luôn có dạng thử nghiệm tỷ lệ khả năng:α

Đề xuất (bổ đề Neyman-Pearson)

Nếu là các hàm khả năng (PDF) của các giả thuyết không và thay thế, và , thì vùng tối đa hóa trong khi duy trì là hình thứcL0,L1α>0MộtΩP1(Một)P0(Một)α

Một= ={ωΩ|L1(ω)L0(ω)K}

với một số hằng số . Ngược lại, đối với mọi , thử nghiệm trên có cho bất kỳ nào sao cho .K>0 KP1(Một)P1(B)BP0(B)P0(Một)

Do đó, tất cả những gì chúng ta phải làm là tìm hằng số sao cho .KP0(Một)= =α

Bằng chứng trên Wikipedia tại thời điểm viết là một bằng chứng toán học khá điển hình, chỉ bao gồm việc phỏng đoán dạng đó và sau đó xác minh rằng nó thực sự tối ưu. Tất nhiên những bí ẩn thực sự là nơi đã làm ý tưởng này lấy một tỷ lệ của các khả năng thậm chí đến từ đâu, và câu trả lời là: tỷ lệ khả năng chỉ đơn giản là mật độ của đối với .P1P0

Nếu bạn đã học được xác suất thông qua cách tiếp cận hiện đại với tích phân Lebesgue và không, thì bạn biết rằng trong các điều kiện khá hạn chế , bạn luôn có thể biểu thị một thước đo xác suất được đưa ra bởi hàm mật độ đối với hàm khác. Trong các điều kiện của Neyman-Pearson lemma, chúng ta có hai biện pháp khả , mà cả hai đều có mật độ tôn trọng đối với một số biện pháp cơ bản, thường là biện pháp đếm trên một không gian rời rạc, hoặc các biện pháp Lebesgue trên với . Hóa ra vì số lượng mà chúng tôi quan tâm kiểm soát là , chúng tôi nên lấy làm thước đo cơ bản và xemP0P1RnP0(Một)P0P1về cách nó liên quan đến , do đó, chúng ta xem xét được đưa ra bởi một hàm mật độ đối với với .P0P1P0

Mua đất

Do đó, trái tim của bổ đề là như sau:

Đặt là thước đo trên một số không gian và để là một hàm tích cực, có thể tích hợp trên . Đặt . Sau đó, tập hợp với sẽ tối đa hóa có dạng cho một số hằng số và ngược lại, bất kỳ tập hợp nào như vậy sẽ tối đa hóa trên tất cả các tập hợp nhỏ hơn chính nó.μΩfΩα>0Mộtμ(Một)αMộtfdμ

{ωΩ|f(ω)K}
K>0fB

Giả sử bạn đang mua đất. Bạn chỉ có thể đủ khả năng mẫu Anh, nhưng có một chức năng tiện ích trên đất liền, định lượng, chẳng hạn, tiềm năng cho cây trồng phát triển, và do đó bạn muốn có một khu vực tối đa hóa . Sau đó, đề xuất trên nói rằng đặt cược tốt nhất của bạn là về cơ bản đặt mua đất từ ​​hữu ích nhất đến ít hữu ích nhất và mua nó theo thứ tự tốt nhất đến tồi tệ nhất cho đến khi bạn đạt được diện tích tối đa . Trong thử nghiệm giả thuyết, là , và là mật độ của đối với (trong đó, như đã nói, là ).αffαμP0fP1P0L1/L0

Dưới đây là một bằng chứng dựa trên kinh nghiệm nhanh chóng: ra khỏi một khu vực nhất định của đất , hãy xem xét một số một mét nhỏ bằng gạch vuông một mét, . Nếu bạn có thể tìm thấy một ô có cùng diện tích ở đâu đó bên ngoài , nhưng sao cho tiện ích của lớn hơn , thì rõ ràng không tối ưu, vì nó có thể được cải thiện bằng cách hoán đổi cho . Do đó, một vùng tối ưu phải được "đóng lên trên", nghĩa là nếu và , thì phải ở , nếu không chúng ta có thể làm tốt hơn bằng cách hoán đổiMộtBB'MộtB'BMộtBB'xMộtf(y)>f(x)yMộtxvà . Đây là tương đương với nói rằng chỉ đơn giản là đối với một số .yMộtf-1([K,+))K

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.