Tại sao chúng tôi bác bỏ giả thuyết khống ở mức 0,05 chứ không phải mức 0,5 (như chúng tôi làm trong Phân loại)


11

Kiểm tra giả thuyết giống như một vấn đề Phân loại. Vì vậy, nói rằng, chúng tôi có 2 nhãn có thể cho một quan sát (chủ đề) - Có tội so với Không có tội. Đặt Non-Guilty là giả thuyết null. Nếu chúng tôi đã xem xét vấn đề từ quan điểm Phân loại, chúng tôi sẽ đào tạo Trình phân loại để dự đoán xác suất của chủ thể thuộc mỗi 2 Lớp, được cung cấp Dữ liệu. Sau đó chúng tôi sẽ chọn Lớp có xác suất cao nhất. Trong trường hợp đó 0,5 xác suất sẽ là ngưỡng tự nhiên. Chúng tôi có thể thay đổi ngưỡng trong trường hợp chúng tôi đã chỉ định các chi phí khác nhau cho các lỗi Sai âm hoặc Sai. Nhưng hiếm khi chúng ta đi quá mức khi đặt ngưỡng ở mức 0,05, tức là chỉ định chủ đề cho Lớp "Có tội" chỉ khi xác suất là 0,95 hoặc cao hơn. Nhưng nếu tôi hiểu rõ, đây là những gì chúng ta đang làm như một thông lệ tiêu chuẩn khi chúng ta xem cùng một vấn đề như một vấn đề kiểm tra giả thuyết. Trong trường hợp sau này, chúng tôi sẽ không gán nhãn "Không phạm tội" - tương đương với việc gán nhãn "Có tội" - chỉ khi xác suất là "Không phạm tội" dưới 5%. Và có lẽ điều này có thể có ý nghĩa nếu chúng ta thực sự muốn tránh kết án những người vô tội. Nhưng tại sao quy tắc này sẽ chiếm ưu thế trong tất cả các Tên miền và mọi trường hợp?

Quyết định giả thuyết nào sẽ áp dụng tương đương với việc xác định Công cụ ước tính cho sự thật được cung cấp dữ liệu. Trong Ước tính khả năng tối đa, chúng tôi chấp nhận Giả thuyết có nhiều khả năng được cung cấp Dữ liệu - không nhất thiết là có khả năng cao hơn nhiều. Xem biểu đồ dưới đây:

nhập mô tả hình ảnh ở đây

Sử dụng phương pháp tiếp cận tối đa, chúng tôi sẽ ủng hộ Giả thuyết thay thế trong ví dụ này nếu giá trị của Dự đoán cao hơn 3, ví dụ 4, mặc dù xác suất của giá trị này được lấy từ Giả thuyết Null sẽ lớn hơn 0,05.

Và trong khi ví dụ mà tôi bắt đầu bài viết có lẽ mang tính cảm xúc, chúng ta có thể nghĩ về các trường hợp khác, ví dụ như một cải tiến kỹ thuật. Tại sao chúng ta nên cung cấp lợi thế như vậy cho Status Quo khi Dữ liệu cho chúng ta biết rằng xác suất giải pháp mới là một cải tiến lớn hơn xác suất mà nó không phải là?


1
Về cơ bản, nó dựa trên quan điểm thống kê của RA Fisher như một công cụ khoa học (tin rằng một giả thuyết tại một thời điểm, cho đến khi bạn có đủ bằng chứng chống lại nó) và kinh nghiệm của ông rằng độ lệch chuẩn dường như cung cấp một sự cân bằng hữu ích giữa việc từ chối giả thuyết null quá thường xuyên và không thường xuyên đủ2
Henry

1
OP chính xác là tiền đề bị thiếu sót ở đây, không có gì trong quy trình NHST cổ điển yêu cầu chúng tôi từ chối ở mức 5%. Đây là một hiện tượng văn hóa có giá trị gây tranh cãi.
Matthew Drury

1
@Matthew Drury: "chọn người cao cho các đội bóng rổ" không phải là một chiến lược chỉ vì nó không bao gồm chiều cao như một quy tắc chính xác. Mặc dù có rất nhiều vấn đề khác, như bạn đã biết, cho phép người dùng chọn nơi vẽ đường kẻ được cho là một tính năng của NHST. Sự ác cảm của tôi đối với rủi ro đã không loại trừ các chuyến đi gần đây đến Paris hoặc London nhưng nó sẽ loại trừ các chuyến thăm tới nhiều quốc gia: những người khác sẽ vẽ đường khác nhau. Tôi đồng ý rằng có một hiện tượng văn hóa [sic] cho đến khi các nhóm khác nhau có các quy ước khác nhau về thời điểm từ chối các giả thuyết.
Nick Cox

Tôi không chắc những gì bạn đang đọc vào bình luận của tôi Nick. Tôi cho rằng lẽ ra tôi nên rõ ràng hơn. Tôi chỉ muốn mọi người suy nghĩ nhiều hơn để thiết lập các ngưỡng cụ thể của vấn đề.
Matthew Drury

Bạn dường như (ed) đang nói rằng NHST là thiếu sót bởi vì nó không ngụ ý một mức độ từ chối cụ thể. Tôi đồng ý với bạn về các ngưỡng cụ thể của vấn đề.
Nick Cox

Câu trả lời:


17

Nói rằng bạn kết thúc tại tòa án và bạn đã không làm điều đó. Bạn có nghĩ rằng thật công bằng khi bạn vẫn có 50% cơ hội bị kết tội? Là 50% cơ hội vô tội là "tội lỗi vượt quá sự nghi ngờ hợp lý "? Bạn có nghĩ rằng thật công bằng khi bạn có 5% cơ hội bị kết tội mặc dù bạn đã không làm điều đó? Nếu tôi ở tòa án tôi sẽ xem xét 5% không đủ bảo thủ.

πe


Đáp lại lời chỉnh sửa của bạn về câu hỏi:

α


6
α=0.05α=0.05

8

Nó giống như bạn nói - nó phụ thuộc vào mức độ sai của các lỗi phủ định sai tích cực và sai.

Trong ví dụ bạn sử dụng, như Maarten Buis đã trả lời, bị kết án nếu có 50% khả năng bạn vô tội là điều không công bằng.

Khi áp dụng nó vào nghiên cứu, hãy nhìn theo cách này: Hãy tưởng tượng bạn muốn biết liệu một loại thuốc mới nào đó có giúp chống lại một bệnh nào đó không. Nói rằng bạn tìm thấy một sự khác biệt giữa nhóm điều trị của bạn và nhóm kiểm soát của bạn có lợi cho việc điều trị. Tuyệt quá! Thuốc phải có tác dụng, phải không? Bạn có thể bác bỏ giả thuyết khống rằng thuốc không có tác dụng. Giá trị p của bạn là 0,49! Có khả năng cao hơn là hiệu ứng bạn tìm thấy được dựa trên sự thật chứ không phải tình cờ!
Bây giờ hãy xem xét điều này: thuốc có tác dụng phụ khó chịu. Bạn chỉ muốn lấy nó nếu bạn tin rằng nó hoạt động. Còn bạn Không, bởi vì vẫn còn 51% cơ hội rằng sự khác biệt bạn tìm thấy giữa hai nhóm hoàn toàn là tình cờ.

Tôi có thể tưởng tượng rằng có những miền mà bạn hài lòng với, ví dụ 10%. Tôi đã thấy các bài viết trong đó 10% được chấp nhận. Tôi cũng đã thấy những bài báo mà họ chọn 2%. Điều này phụ thuộc vào mức độ quan trọng của bạn khi bạn tin rằng việc từ chối giả thuyết khống sẽ dựa trên sự thật chứ không phải tình cờ. Tôi khó có thể tưởng tượng một tình huống mà bạn hài lòng với 50% cơ hội rằng sự khác biệt bạn tìm thấy được dựa trên may mắn thuần túy.


5

.05.50


Bạn thực hiện "[h] ypothesis tests [to be] giống với vấn đề Phân loại". Sự tương đồng rõ ràng ở đây chỉ là bề ngoài; Điều đó không thực sự đúng theo một nghĩa có ý nghĩa.

.67.67

00100%0.0¯00p<.5). Kết quả là, bạn sẽ luôn luôn kết luận giả thuyết null là sai. Để làm rõ điều này, tiền đề sai lầm trong câu hỏi của bạn là có một dòng màu xanh duy nhất, có ý nghĩa (như được mô tả trong hình của bạn) có thể được sử dụng như bạn đề xuất.

.50


3

Để thêm vào các câu trả lời trước rất hay: Có, 5% là tùy ý, nhưng bất kể ngưỡng cụ thể bạn chọn là gì, nó phải nhỏ một cách hợp lý, nếu không, kiểm tra giả thuyết không có ý nghĩa gì.

Bạn đang tìm kiếm một hiệu ứng và muốn chắc chắn rằng kết quả của bạn không hoàn toàn là do tình cờ. Ở mức độ đó, bạn đặt mức ý nghĩa về cơ bản là "Nếu thực sự không có hiệu lực (giả thuyết null là đúng), đây sẽ là xác suất để vẫn có được kết quả như vậy (hoặc cực đoan hơn) bởi cơ hội thuần túy" . Đặt mức này quá cao sẽ dẫn đến nhiều kết quả dương tính giả và làm suy yếu khả năng của bạn để có được câu trả lời có ý nghĩa cho câu hỏi nghiên cứu của bạn.

Như mọi khi, có sự đánh đổi liên quan, vì vậy cộng đồng nghiên cứu đã đưa ra hướng dẫn 5% này. Nhưng nó khác nhau trong các lĩnh vực khác nhau. Trong vật lý hạt, nó giống như 0,00001% hoặc một cái gì đó.


0

Phân loại và kiểm tra giả thuyết là khác nhau và được sử dụng khác nhau . Trong hầu hết các trường hợp, mọi người sử dụng

  • "Phân loại" "để thực hiện nhiệm vụ" phân loại thứ gì đó theo phẩm chất hoặc đặc điểm chung ".
  • Và sử dụng "kiểm tra giả thuyết" để xác minh một số "khám phá quan trọng".

Lưu ý rằng, trong kiểm tra giả thuyết, "giả thuyết null" là "lẽ thường", nhưng nếu chúng ta có thể bác bỏ các giả thuyết null thì chúng ta sẽ nghỉ ngơi.

Đây là lý do tại sao chúng tôi có một tiêu chí nghiêm ngặt hơn trong kiểm tra giả thuyết. Hãy suy nghĩ ví dụ về việc phát triển những lực cản mới, chúng tôi muốn rất cẩn thận để nói rằng điều đó có ý nghĩa và hiệu quả.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.