Hiểu lầm về giá trị P?


16

Vì vậy, tôi đã đọc rất nhiều về cách giải thích chính xác giá trị P và từ những gì tôi đã đọc, giá trị p nói KHÔNG CÓ về xác suất giả thuyết null là đúng hay sai. Tuy nhiên, khi đọc các tuyên bố sau:

Giá trị p đại diện cho xác suất tạo ra lỗi loại I hoặc từ chối giả thuyết null khi nó đúng. Giá trị p càng nhỏ thì xác suất bạn sẽ từ chối sai giả thuyết null càng nhỏ.

EDIT: Và sau đó 5 phút tôi đọc:

Giải thích không chính xác các giá trị P là rất phổ biến. Lỗi phổ biến nhất là diễn giải giá trị P là xác suất mắc lỗi bằng cách từ chối một giả thuyết null thực sự (lỗi Loại I).

Điều này làm tôi bối rối. Điều nào là đúng? Và bất cứ ai cũng có thể giải thích làm thế nào để giải thích chính xác giá trị p và làm thế nào nó liên quan chính xác đến xác suất gây ra lỗi loại I?


1
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is trueGiá trị p đại diện cho xác suất apriori gây ra lỗi loại I, nghĩa là từ chối giả thuyết khống theo giả định rằng đó là sự thật.
ttnphns

4
@Paul: xác suất để từ chối điều kiện null trên null là đúng là xác suất của lỗi loại I, điều này không giống với giá trị p. Khả năng của lỗi loại I là bằng (đối với các biến ngẫu nhiên liên tục) với mức ý nghĩa được chọn, xem thêm câu trả lời của tôi dưới đây.

Vâng, tôi thấy bây giờ, bạn hoàn toàn đúng.
Paul

4
@fcoppens Xác suất xảy ra lỗi loại I chỉ bằng với mức alpha được chọn trước nếu bạn dựa trên giả thuyết null là đúng. Trong trường hợp vô điều kiện, bạn không biết null là đúng hay sai và do đó bạn chỉ có thể chỉ định xác suất của lỗi loại I nếu bạn cung cấp xác suất trước cho sự thật của null.
Michael Lew

@Michael Lew: Điều này về null được đề cập trong câu trả lời của tôi dưới đây?

Câu trả lời:


25

Vì ý kiến ​​của bạn, tôi sẽ làm hai phần riêng biệt:

giá trị p

Trong thử nghiệm giả thuyết thống kê, bạn có thể tìm thấy 'bằng chứng thống kê' cho giả thuyết thay thế ; Như tôi đã giải thích trong Điều gì sau đây nếu chúng ta không từ chối giả thuyết khống? , nó tương tự như 'bằng chứng bởi mâu thuẫn' trong toán học.

Vì vậy, nếu chúng ta muốn tìm "bằng chứng thống kê" thì chúng ta giả sử ngược lại, chúng ta biểu thị về những gì chúng ta cố gắng chứng minh mà chúng ta gọi là H 1 . Sau này, chúng tôi vẽ một mẫu và từ mẫu, chúng tôi tính toán cái gọi là thống kê kiểm tra (ví dụ: giá trị t trong kiểm tra t).H0H1

Sau đó, khi chúng tôi giả sử rằng là đúng và mẫu của chúng tôi được rút ngẫu nhiên từ phân phối theo H 0 , chúng tôi có thể tính xác suất quan sát các giá trị vượt quá hoặc bằng giá trị thu được từ mẫu (ngẫu nhiên) của chúng tôi. Xác suất này được gọi là giá trị p.H0H0

Nếu giá trị này là '' đủ nhỏ '', tức là nhỏ hơn mức ý nghĩa mà chúng tôi đã chọn, thì chúng tôi từ chối và chúng tôi coi H 1 là 'được chứng minh thống kê'.H0H1

Một số điều quan trọng trong cách làm này:

  • chúng tôi đã đưa ra xác suất theo giả định rằng là đúngH0
  • chúng tôi đã lấy một mẫu ngẫu nhiên từ sự nghi ngờ được giả định theo H0
  • chúng tôi quyết định đã tìm thấy bằng chứng cho nếu thống kê kiểm tra xuất phát từ mẫu ngẫu nhiên có xác suất vượt quá thấp. Vì vậy, không thể vượt quá trong khi H 0 là đúng và trong những trường hợp này, chúng tôi tạo ra lỗi loại I. H1H0

Vậy lỗi loại I là gì: một lỗi loại I được tạo ra khi mẫu, được rút ngẫu nhiên từ , dẫn đến kết luận rằng H 0 là sai trong khi thực tế nó là đúng.H0H0

Lưu ý rằng điều này có nghĩa rằng một giá trị p không phải là xác suất của một lỗi loại I . Thật vậy, lỗi loại I là một quyết định sai trong thử nghiệm và quyết định chỉ có thể được đưa ra bằng cách so sánh giá trị p với mức ý nghĩa được chọn, với một giá trị p, người ta không thể đưa ra quyết định, chỉ sau khi so sánh giá trị p đến mức ý nghĩa được lựa chọn mà quyết định được đưa ra và miễn là không có quyết định nào được đưa ra, lỗi loại I thậm chí không được xác định.

Giá trị p là gì? Sự từ chối có khả năng sai của là do chúng ta vẽ một mẫu ngẫu nhiên theoH0 , do đó có thể chúng ta đã '' xui xẻo '' bằng cách vẽ mẫu và điều này '' xui xẻo '' từ chối sai H 0 . Vì vậy, giá trị p (mặc dù điều này không hoàn toàn chính xác) giống như xác suất vẽ một 'mẫu xấu' '. Giải thích chính xác về giá trị p là xác suất thống kê kiểm tra vượt quá hoặc bằng giá trị của thống kê kiểm tra xuất phát từ một mẫu được rút ngẫu nhiên theo H 0H0H0H0


Tỷ lệ phát hiện sai (FDR)

Như đã giải thích ở trên, mỗi lần giả thuyết khống bị bác bỏ, người ta coi đây là 'bằng chứng thống kê' cho H1 . Vì vậy, chúng tôi đã tìm thấy kiến ​​thức khoa học mới, do đó nó được gọi là một khám phá . Cũng được giải thích ở trên là chúng ta có thể thực hiện các khám phá sai (tức là từ chối sai ) khi chúng ta mắc lỗi loại I. Trong trường hợp đó, chúng ta có một niềm tin sai lầm về một sự thật khoa học. Chúng tôi chỉ muốn khám phá những điều thực sự đúng và do đó, người ta cố gắng giữ những khám phá sai lầm ở mức tối thiểu, tức là người ta sẽ kiểm soát lỗi loại I. Không quá khó để thấy rằng xác suất của lỗi loại I là mức ý nghĩa được chọn α . Vì vậy, để kiểm soát lỗi loại I, người ta sửa lỗi αH0αα-level phản ánh sự sẵn sàng của bạn để chấp nhận '' bằng chứng sai lệch ''.

Bằng trực giác, phương tiện này rằng nếu chúng ta rút ra một số lượng lớn các mẫu, và với mỗi mẫu chúng tôi thực hiện việc kiểm tra, sau đó một phần nhỏ của những thử nghiệm này sẽ dẫn đến một kết luận sai. Điều quan trọng cần lưu ý là chúng tôi 'trung bình trên nhiều mẫu' ; Thử nghiệm giống nhau, nhiều mẫu. α

Nếu chúng tôi sử dụng cùng một mẫu để thực hiện nhiều thử nghiệm khác nhau thì chúng tôi sẽ có nhiều lỗi thử nghiệm (xem phần trả lời của tôi về ranh giới lỗi Gia đình khôn ngoan: Việc sử dụng lại bộ dữ liệu trong các nghiên cứu khác nhau về các câu hỏi độc lập có dẫn đến nhiều vấn đề thử nghiệm không? ). Trong trường hợp đó, người ta có thể kiểm soát lạm phát bằng cách sử dụng các kỹ thuật để kiểm soát tỷ lệ lỗi thông minh của gia đình (FWER) , ví dụ như điều chỉnh Bonferroni.α

Một cách tiếp cận khác với FWER là kiểm soát tỷ lệ phát hiện sai (FDR) . Trong trường hợp đó, người ta kiểm soát số lượng khám phá sai (FD) trong số tất cả các khám phá (D), do đó, một điều khiển FDD , D là số lượng bị từ chối .H0

Vì vậy, xác suất lỗi loại I phải thực hiện với việc thực hiện cùng một thử nghiệm trên nhiều mẫu khác nhau. Đối với một số lượng lớn các mẫu, xác suất lỗi loại I sẽ hội tụ đến số lượng mẫu dẫn đến từ chối sai chia cho tổng số mẫu được rút ra .

Các FDR đã làm với nhiều thử nghiệm trên cùng một mẫu và cho một số lượng lớn các bài kiểm tra nó sẽ hội tụ về số lượng kiểm tra nơi một lỗi loại I được thực hiện (tức là số lượng phát hiện sai) chia cho tổng số từ chối của (tức là tổng số khám phá)H0 .

Lưu ý rằng, so sánh hai đoạn văn trên:

  1. Bối cảnh là khác nhau; một thử nghiệm và nhiều mẫu so với nhiều thử nghiệm và một mẫu.
  2. Mẫu số để tính toán xác suất lỗi loại I rõ ràng khác với mẫu số cho tính toán FDR. Các tử số tương tự theo một cách, nhưng có một bối cảnh khác nhau.

FDR cho bạn biết rằng, nếu bạn thực hiện nhiều thử nghiệm trên cùng một mẫu và bạn tìm thấy 1000 khám phá (tức là từ chối ) thì với FDR là 0,38, bạn sẽ có 0,38 ×H0 phát hiện sai.0.38×1000


5
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0Là vậy sao Nó không "bằng hoặc vượt quá"? Giá trị P là thăm dò dưới H0 thực, chúng ta quan sát sự khác biệt hoặc liên kết này hoặc mạnh hơn so với thực tế quan sát được.
ttnphns

@ttnphns Đối với một thống kê kiểm tra liên tục, không có sự khác biệt bởi vì số đo của một điểm bằng không. Đối với một thống kê kiểm tra riêng biệt, bạn đúng (+1). Tôi đã thay đổi văn bản cho phù hợp.

1
Bạn rút ra sự phân biệt rất hữu ích giữa giá trị P và tỷ lệ lỗi loại I, nhưng tôi nghĩ bạn cần cảnh giác hơn với từ "đã được chứng minh". Theo tôi, việc bổ sung công cụ sửa đổi "không đủ làm mềm".
Michael Lew

1
Bạn đã xử lý bằng chứng như thể nó chỉ có trạng thái nhị phân: tồn tại và không tồn tại. Theo cách hiểu chuẩn về bằng chứng phi thống kê, khái niệm từ có sự tồn tại được phân loại và nó phức tạp hơn một chiều sức mạnh duy nhất có thể nắm bắt được. Khó khăn đến từ sự không tương thích của các cân nhắc tỷ lệ lỗi với các diễn giải thông thường về bằng chứng. Tôi sẽ rất thích đọc bất kỳ tài khoản nào nắm bắt được sự giải thích phi nhị phân về 'bằng chứng' trong khuôn khổ FDR. (Tôi chưa nhìn thấy cái nào cả.)
Michael Lew

1
Cảm ơn bạn đã sửa chữa. Tôi đã thực hiện thay đổi thích hợp đêm qua và ghi có bài viết của bạn.
Antoni Parellada

4

Tuyên bố đầu tiên không hoàn toàn đúng.

Từ một bài báo tiện lợi về sự hiểu lầm về ý nghĩa: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )

"[Tuyên bố này] có thể trông giống với định nghĩa về lỗi Loại I (nghĩa là xác suất từ ​​chối H0 mặc dù thực tế là đúng), nhưng thực tế đã từ chối H0, quyết định này sẽ sai nếu và chỉ khi H0 là đúng. Do đó, xác suất "rằng bạn đang đưa ra quyết định sai là L (H0) và xác suất này ... không thể được xác định bằng thử nghiệm ý nghĩa giả thuyết null. "

Đơn giản hơn, để đánh giá xác suất bạn đã từ chối H0 không chính xác, bạn yêu cầu xác suất H0 là đúng mà bạn đơn giản không thể có được bằng cách sử dụng thử nghiệm này.


Cảm ơn bạn! Vì vậy, khi tôi đọc phần đầu tiên của statsdonewrong.com/p-value.html , tác giả kết luận FDR là 38%, vậy xác suất của lỗi loại I là 38%?
rb612

FDR là Tỷ lệ phát hiện sai và nó rất khác với lỗi loại I, vì vậy câu trả lời cho câu hỏi của bạn là không. FDR phải thực hiện với nhiều thử nghiệm, tức là khi bạn thực hiện nhiều thử nghiệm trên cùng một mẫu, hãy xem stats.stackexchange.com/questions/164181/ . FDR là một thay thế cho Tỷ lệ lỗi gia đình, nhưng để giải thích rằng số lượng ký tự trong một nhận xét quá hạn chế.

Tôi đã thêm một phần thứ hai trong câu trả lời của tôi để giải thích FDR.

1
Cũng như không thể xác định xác suất H0 là đúng mà không có trước, nên không thể xác định FDR mà không có trước. Hãy cẩn thận trong cách bạn diễn giải các bài báo FDR, bởi vì các linh mục được sử dụng trong chúng có thể không nhất thiết có liên quan đến hoàn cảnh thử nghiệm của riêng bạn.
Michael Lew

1

Việc giải thích chính xác giá trị p là xác suất có điều kiện của một kết quả ít nhất là dẫn đến giả thuyết thay thế là giá trị quan sát được (ít nhất là "cực trị"), giả sử giả thuyết null là đúng . Giải thích không chính xác thường liên quan đến xác suất cận biên hoặc chuyển đổi điều kiện:

p-value=P(At least as extreme as observed outcome|H0)P(Type I error).

-1

Giá trị p cho phép chúng ta xác định liệu giả thuyết null (hay giả thuyết được tuyên bố) có thể bị bác bỏ hay không. Nếu giá trị p nhỏ hơn mức ý nghĩa, thì điều này thể hiện kết quả có ý nghĩa thống kê và giả thuyết null nên bị bác bỏ. Nếu giá trị p lớn hơn mức ý nghĩa, thì có thể loại bỏ giả thuyết null. Đây là toàn bộ lý do tra cứu giá trị p nếu bạn đang sử dụng bảng hoặc sử dụng máy tính trực tuyến, chẳng hạn như máy tính này, máy tính giá trị p , để tìm giá trị p từ thống kê kiểm tra.

Bây giờ tôi biết rằng bạn đã đề cập đến lỗi loại I và loại II. Điều này thực sự không có gì để làm với giá trị p. Điều này phải làm với dữ liệu gốc, chẳng hạn như cỡ mẫu được sử dụng và các giá trị thu được cho dữ liệu. Nếu kích thước mẫu quá nhỏ, chẳng hạn, điều này có thể dẫn đến lỗi loại I.


2
-1. Tôi rất tiếc khi chào đón bạn đến trang web của chúng tôi với một downvote, nhưng câu trả lời này hoàn toàn không chính xác: đơn giản không phải là trường hợp giá trị p là xác suất của sự thật của giả thuyết null. Đây là amply được thảo luận trong nhiều chủ đề về giá trị p và kiểm tra giả thuyết, chẳng hạn như stats.stackexchange.com/questions/31 .
whuber

1
Tôi đã sửa đổi câu trả lời ban đầu một chút để làm cho nó chính xác hơn.
dùng1445657
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.