Hiểu giá trị p

Tôi biết rằng có rất nhiều tài liệu giải thích giá trị p. Tuy nhiên, khái niệm này không dễ nắm bắt mà không cần làm rõ thêm.

Dưới đây là định nghĩa về giá trị p từ Wikipedia:

Giá trị p là xác suất để có được một thống kê kiểm tra ít nhất là cực trị như giá trị thực tế đã được quan sát, giả sử rằng giả thuyết null là đúng. ( http://en.wikipedia.org/wiki/P-value )

Câu hỏi đầu tiên của tôi liên quan đến biểu thức "ít nhất là cực đoan như câu hỏi thực sự được quan sát." Sự hiểu biết của tôi về logic dựa trên việc sử dụng giá trị p là như sau: Nếu giá trị p nhỏ, việc quan sát xảy ra không có khả năng giả định null và chúng ta có thể cần một giả thuyết thay thế để giải thích quan sát. Nếu giá trị p không quá nhỏ, có khả năng quan sát xảy ra chỉ giả định giả thuyết khống và giả thuyết thay thế là không cần thiết để giải thích quan sát. Vì vậy, nếu ai đó muốn nhấn mạnh vào một giả thuyết, anh ấy / cô ấy phải chỉ ra rằng giá trị p của giả thuyết null là rất nhỏ. Với quan điểm này, sự hiểu biết của tôi về biểu thức mơ hồ là giá trị p là $\min[P(X<x),P(x<X)]$ , nếu PDF của thống kê là không chính thống, trong đó $X$ là thống kê kiểm tra và $x$ là giá trị của nó thu được từ quan sát. Thê nay đung không? Nếu nó đúng, nó vẫn được áp dụng để sử dụng PDF bimodal của thống kê? Nếu hai đỉnh của PDF được phân tách tốt và giá trị quan sát nằm ở đâu đó trong vùng mật độ xác suất thấp giữa hai đỉnh, thì giá trị p sẽ đưa ra xác suất?

Câu hỏi thứ hai là về một định nghĩa khác về giá trị p từ Wolfram MathWorld:

Xác suất mà một phương sai sẽ giả sử một giá trị lớn hơn hoặc bằng giá trị quan sát một cách nghiêm túc. ( http://mathworld.wolfram.com/P-Value.html )

Tôi hiểu rằng cụm từ "hoàn toàn tình cờ" nên được hiểu là "giả sử không có giả thuyết". Có đúng không?

Câu hỏi thứ ba liên quan đến việc sử dụng "giả thuyết null". Chúng ta hãy giả sử rằng ai đó muốn nhấn mạnh rằng một đồng tiền là công bằng. Ông đưa ra giả thuyết khi tần số tương đối của đầu là 0,5. Thì giả thuyết khống là "tần số tương đối của các đầu không phải là 0,5". Trong trường hợp này, trong khi việc tính toán giá trị p của giả thuyết null là khó khăn, việc tính toán dễ dàng cho giả thuyết thay thế. Tất nhiên vấn đề có thể được giải quyết bằng cách hoán đổi vai trò của hai giả thuyết. Câu hỏi của tôi là sự từ chối hoặc chấp nhận dựa trên giá trị p của giả thuyết thay thế ban đầu (không đưa ra giả thuyết null) là liệu nó có ổn hay không. Nếu nó không ổn, cách giải quyết thông thường cho những khó khăn như vậy khi tính giá trị p của một giả thuyết null là gì?

Tôi đã đăng một câu hỏi mới được làm rõ hơn dựa trên các cuộc thảo luận trong chủ đề này.

hypothesis-testing p-value interpretation

— JDL
nguồn

Quan tâm có thể có: Có lỗi trong phép thử nhị thức một phía trong R không?

Bạn đã bắt gặp một sự tinh tế thường không được nhận ra: "cực đoan hơn" cần phải được đo lường theo khả năng tương đối của giả thuyết thay thế thay vì theo nghĩa rõ ràng (nhưng không chính xác) về việc tiếp tục lấy mẫu null phân phối. Điều này là rõ ràng trong công thức của Bổ đề Neyman-Pearson , được sử dụng để biện minh cho nhiều thử nghiệm giả thuyết và để xác định các khu vực quan trọng của chúng (và từ đó giá trị p của chúng). Suy nghĩ này sẽ giúp trả lời câu hỏi đầu tiên của bạn.

— whuber

Như tôi nhớ, Bổ đề Neyman-Pearson là tối ưu cho các thử nghiệm giả thuyết đơn giản so với đơn giản (Ho: mu = mu_0, Ha: mu = mu_a). Đối với các thử nghiệm tổng hợp (Ho: mu = mu_0, Ha: mu> mu_a) có một thử nghiệm thay thế.

— RobertF

Câu trả lời:

Câu trả lời đầu tiên

Bạn phải suy nghĩ về khái niệm cực đoan về xác suất của thống kê kiểm tra, không phải về giá trị của nó hoặc giá trị của biến ngẫu nhiên đang được kiểm tra. Tôi báo cáo ví dụ sau từ Christensen, R. (2005). Kiểm tra Fisher, Neyman, Pearson và Bayes . Thống kê người Mỹ , 59 (2), 121 Ảo126

r | 1 2 3 4 p (r | θ = 0) | 0.980 0.005 0.005 0.010 p v a l u e | 1.0 0.01 0.01 0.02

$\phantom{(r\;|\;\theta=0}r\; | \quad 1 \quad \quad 2 \quad \quad 3 \quad \quad 4\\ p(r\;|\;\theta=0) \; |\; 0.980\;0.005\; 0.005\; 0.010\\ \quad p\;\mathrm{value} \; \; | \;\; 1.0 \quad 0.01 \quad 0.01 \;\; 0.02$

Ở đây là các quan sát, dòng thứ hai là xác suất để quan sát một quan sát đã cho theo giả thuyết null , được sử dụng ở đây làm thống kê kiểm tra, dòng thứ ba là giá trị . Chúng tôi ở đây trong khuôn khổ kiểm tra : có một giả thuyết ( , trong trường hợp này là ), theo đó chúng tôi muốn xem liệu dữ liệu có kỳ lạ hay không. Các quan sát với xác suất nhỏ nhất là 2 và 3 với 0,5% mỗi quan sát. Nếu bạn có được 2, ví dụ, xác suất để quan sát thứ gì đó có khả năng hoặc ít có khả năng ( và ) là 1%. Quan sát không đóng góp cho $r$ $\theta=0$ $p$ $H_0$ $\theta=0$ $r=2$ $r=3$ $r=4$ $p$ giá trị, mặc dù nó ở xa hơn (nếu tồn tại một mối quan hệ đơn hàng), bởi vì nó có xác suất cao hơn để được quan sát.

Định nghĩa này hoạt động nói chung, vì nó chứa cả các biến phân loại và đa chiều, trong đó mối quan hệ thứ tự không được xác định. Trong trường hợp biến định lượng ingle, trong đó bạn quan sát thấy một số sai lệch so với kết quả có khả năng nhất, có thể tính toán giá trị đuôi đơn và chỉ xem xét các quan sát ở một phía của phân phối thống kê kiểm tra. $p$

Câu trả lời thứ hai

Tôi hoàn toàn không đồng ý với định nghĩa này từ Mathworld.

Câu trả lời thứ ba

Tôi phải nói rằng tôi không hoàn toàn chắc chắn rằng tôi hiểu câu hỏi của bạn, nhưng tôi sẽ cố gắng đưa ra một vài quan sát có thể giúp bạn.

Trong bối cảnh đơn giản nhất của thử nghiệm Ngư dân, nơi bạn chỉ có giả thuyết khống, đây sẽ là hiện trạng . Điều này là do thử nghiệm Ngư nghiệp hoạt động chủ yếu bằng mâu thuẫn. Vì vậy, trong trường hợp của đồng tiền, trừ khi bạn có lý do để nghĩ khác, bạn sẽ cho rằng nó là công bằng, . Sau đó, bạn tính giá trị cho dữ liệu của mình trong và, nếu giá trị của bạn dưới ngưỡng được xác định trước, bạn sẽ từ chối giả thuyết (bằng chứng bằng mâu thuẫn). Bạn không bao giờ tính xác suất của giả thuyết null. $H_0: \theta=0.5$ $p$ $H_0$ $p$

Với các thử nghiệm Neyman-Pearson, bạn chỉ định hai giả thuyết thay thế và, dựa trên khả năng tương đối của chúng và tính chiều của các vectơ tham số, bạn ủng hộ cái này hay cái khác. Điều này có thể được nhìn thấy, ví dụ, trong việc kiểm tra giả thuyết về đồng xu thiên vị so với không thiên vị. Không thiên vị có nghĩa là sửa tham số thành (chiều của không gian tham số này bằng 0), trong khi độ lệch có thể là bất kỳ giá trị nào (thứ nguyên bằng một). Điều này giải quyết vấn đề cố gắng mâu thuẫn với giả thuyết sai lệch bằng mâu thuẫn, điều này là không thể, như được giải thích bởi một người dùng khác. Fisher và NP cho kết quả tương tự khi mẫu lớn, nhưng chúng không hoàn toàn tương đương. Dưới đây là một mã đơn giản trong R cho một đồng xu thiên vị. $\theta=0.5$ $\theta \neq 0.5$

n <- 100  # trials
p_bias <- 0.45  # the coin is biased
k <- as.integer(p_bias * n)  # successes

# value obtained by plugging in the MLE of p, i.e. k/n = p_bias
lambda <- 2 * n * log(2) + 2 * k * log(p_bias) + 2 * (n-k) * log(1. - p_bias)

p_value_F <- 2 * pbinom(k, size=n, prob=0.5)  # p-value under Fisher test
p_value_NP <- 1 - pchisq(q=lambda, df=1)  # p-value under Neyman-Pearson
binom.test(c(k, n-k))  # equivalent to Fisher

— Hà Lan
nguồn

+1 để chỉ ra một bài viết tuyệt vời mà tôi không biết. (Ngoài ra đối với một số hoài nghi rất cần thiết về tiện ích của quan điểm thống kê của Mathworld).

— liên hợp chiến binh

Cảm ơn nhiều! Vì vậy, giá trị p là \ int_ {x: f (x) <= k} f, trong đó f là PDF của thống kê kiểm tra và k là giá trị quan sát được của thống kê. Cám ơn bạn một lần nữa.

— JDL

Về câu trả lời thứ ba, điều được chứng minh trong câu trả lời của bạn là sự không công bằng của đồng tiền vì giả định công bằng bị từ chối. Ngược lại, để chứng minh sự công bằng của đồng xu bằng mâu thuẫn, tôi phải thừa nhận sự không công bằng \ theta \ neq 0.5 và tính giá trị p của dữ liệu của tôi. Tôi làm nó như thế nào? Quan điểm của tôi là khó khăn bắt nguồn từ dấu hiệu \ neq của giả định không công bằng. Tôi có phải giới thiệu một số mức dung sai cho sự công bằng không, giả sử 0,4 <\ theta <0,6 và tính giá trị p theo \ theta và tích hợp nó trên 0 <\ theta <0,4 và 0,6 <\ theta <1?

— JDL

Thêm một câu hỏi nữa. Liên kết này giải thích giá trị p "một phía". Nó nói rằng các câu trả lời giá trị p một phía như "giả thuyết null, rằng hai quần thể thực sự giống nhau ... cơ hội mà các mẫu được chọn ngẫu nhiên sẽ có ý nghĩa cách xa nhau (hoặc xa hơn) quan sát được trong thí nghiệm này với nhóm được chỉ định có giá trị trung bình lớn hơn ? " Đây có phải là cách sử dụng giá trị p một phía thích hợp không? Tôi nghĩ rằng giả thuyết null nên được thể hiện như một sự bất bình đẳng trong trường hợp này (thay vì kiểm tra sự bình đẳng và kiểm tra một phía).

— JDL

@Zag, tôi không đồng ý với câu trả lời này: bạn không cần phải nghĩ đến khái niệm cực đoan về mặt xác suất. Tốt hơn nên nói rằng trong ví dụ này , xác suất dưới null đang được sử dụng làm thống kê kiểm tra - nhưng điều đó không bắt buộc. Ví dụ: nếu tỷ lệ khả năng, như được đề cập bởi whuber, được sử dụng làm thống kê kiểm tra, thì nói chung, nó sẽ không đặt các mẫu có thể theo cùng thứ tự như xác suất dưới giá trị null. Các số liệu thống kê khác được chọn cho công suất tối đa đối với một lựa chọn thay thế hoặc tất cả các lựa chọn thay thế hoặc cho công suất cao đối với một tập hợp được xác định mơ hồ.

— Scortchi - Phục hồi Monica

(1) Thống kê là một số bạn có thể tính toán từ một mẫu. Nó được sử dụng để sắp xếp theo thứ tự tất cả các mẫu mà bạn có thể có (theo mô hình giả định, nơi tiền không rơi vào rìa của chúng & bạn có gì). Nếu là những gì bạn tính toán từ mẫu bạn thực sự có, & là biến ngẫu nhiên tương ứng, thì giá trị p được đưa ra bởi theo giả thuyết , . "Lớn hơn" so với "cực đoan hơn" về nguyên tắc là không quan trọng. Đối với thử nghiệm hai mặt trên Bình thường, chúng tôi có thể sử dụng nhưng thật tiện lợi khi sử dụng bởi vì chúng tôi có các bảng thích hợp. (Lưu ý nhân đôi.) $t$ $T$ $\newcommand{\pr}{\mathrm{Pr}} \pr\left(T\geq t\right)$ $H_0$ $\pr(|Z|\geq |z|)$ $2\min [\pr(Z\geq z),\pr(Z\leq z)]$

Không có yêu cầu về thống kê kiểm tra để đặt các mẫu theo thứ tự xác suất của chúng theo giả thuyết khống. Có những tình huống (như ví dụ của Zag) trong đó bất kỳ cách nào khác có vẻ sai trái (không có thêm thông tin về các biện pháp , loại khác biệt nào với được quan tâm nhất, & c.), Nhưng thường sử dụng các tiêu chí khác. Vì vậy, bạn có thể có một tệp PDF hai chiều cho thống kê kiểm tra & vẫn kiểm tra bằng công thức trên. $r$ $H_0$ $H_0$

(2) Có, chúng có nghĩa là theo . $H_0$

(3) Một giả thuyết không có giá trị như "Tần số của các đầu không phải là 0,5" không được sử dụng vì bạn sẽ không bao giờ có thể từ chối nó. Đó là một null tổng hợp bao gồm "tần số của các đầu là 0,49999999" hoặc gần như bạn muốn. Cho dù bạn có suy nghĩ trước về sự công bằng của đồng tiền hay không, bạn chọn một giả thuyết null hữu ích giải quyết vấn đề. Có lẽ hữu ích hơn sau khi thử nghiệm là tính toán khoảng tin cậy cho tần suất của các đầu cho bạn thấy rõ ràng đó không phải là một đồng tiền công bằng, hoặc nó đủ gần để công bằng, hoặc bạn cần phải thử nghiệm nhiều hơn để tìm hiểu.

Một minh họa cho (1):

Giả sử bạn đang kiểm tra tính công bằng của một đồng xu với 10 lần tung. Có kết quả có thể. Dưới đây là ba trong số họ: $2^{10}$

$\mathsf{HHHHHHHHHH}\\ \mathsf{HTHTHTHTHT}\\ \mathsf{HHTHHHTTTH}$

Có lẽ bạn sẽ đồng ý với tôi rằng hai người đầu tiên trông hơi nghi ngờ. Tuy nhiên, xác suất dưới null là bằng nhau:

$\mathrm{Pr}(\mathsf{HHHHHHHHHH}) = \frac{1}{1024}\\ \mathrm{Pr}(\mathsf{HTHTHTHTHT}) = \frac{1}{1024}\\ \mathrm{Pr}(\mathsf{HHTHHHTTTH}) = \frac{1}{1024}$

Để đến bất cứ nơi nào bạn cần xem xét loại thay thế nào cho null bạn muốn kiểm tra. Nếu bạn chuẩn bị đảm nhận tính độc lập của từng lần ném theo cả null & thay thế (& trong các tình huống thực tế, điều này thường có nghĩa là làm việc rất chăm chỉ để đảm bảo các thử nghiệm thử nghiệm là độc lập), bạn có thể sử dụng tổng số đầu làm thống kê kiểm tra mà không mất thông tin . (Phân vùng không gian mẫu theo cách này là một công việc quan trọng khác mà thống kê thực hiện.)

Vì vậy, bạn có số lượng từ 0 đến 10

t<-c(0:10)

Phân phối của nó dưới null là

p.null<-dbinom(t,10,0.5)

Trong phiên bản thay thế phù hợp nhất với dữ liệu, nếu bạn thấy (giả sử) 3 trên 10 đầu thì xác suất của các đầu là , vì vậy $\frac{3}{10}$

p.alt<-dbinom(t,10,t/10)

Lấy tỷ lệ của xác suất dưới giá trị null với xác suất theo phương án thay thế (được gọi là tỷ lệ khả năng):

lr<-p.alt/p.null

So sánh với

plot(log(lr),p.null)

Vì vậy, đối với null này, hai mẫu thống kê thứ tự theo cùng một cách. Nếu bạn lặp lại với giá trị 0,85 (nghĩa là kiểm tra tần số dài hạn của đầu là 85%), thì không.

p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)

kiểm tra lof gof

Để xem tại sao

plot(t,p.alt)

Một số giá trị của ít có thể xảy ra theo phương án thay thế, và thống kê kiểm tra tỷ lệ khả năng sẽ tính đến điều này. NB thống kê kiểm tra này sẽ không cực đoan cho $t$

$\mathsf{HTHTHTHTHT}$

Và điều đó tốt - mọi mẫu có thể được coi là cực đoan từ một số quan điểm. Bạn chọn thống kê kiểm tra theo loại khác biệt nào đối với null bạn muốn có thể phát hiện.

... Tiếp tục chuỗi suy nghĩ này, bạn có thể xác định một thống kê phân vùng không gian mẫu khác nhau để kiểm tra cùng một giá trị chống lại sự thay thế mà một đồng xu tung ảnh hưởng đến lần tiếp theo. Gọi số lần chạy , sao cho $r$

$\mathsf{HHTHHHTTTH}$

có : $r=6$

$\mathsf{HH}\ \mathsf{T}\ \mathsf{HHH}\ \mathsf{TTT}\ \mathsf{H}$

Trình tự đáng ngờ

$\mathsf{HTHTHTHTHT}$

có . Cũng vậy $r=10$

$\mathsf{THTHTHTHTH}$

trong khi ở thái cực khác

$\mathsf{HHHHHHHHHH}\\ \mathsf{TTTTTTTTTT}$

có . Sử dụng xác suất dưới giá trị null làm thống kê kiểm tra (theo cách bạn muốn), bạn có thể nói rằng giá trị p của mẫu $r=1$

$\mathsf{HTHTHTHTHT}$

do đó là . Điều đáng lưu ý, so sánh thử nghiệm này với thử nghiệm trước đó, là ngay cả khi bạn tuân thủ nghiêm ngặt thứ tự được đưa ra theo xác suất dưới giá trị null, cách bạn xác định thống kê kiểm tra của mình để phân vùng không gian mẫu phụ thuộc vào việc xem xét các lựa chọn thay thế. $\frac{4}{1024}=\frac{1}{256}$

— Scortchi - Tái lập Monica
nguồn

Bạn nói rằng định nghĩa Pr (T \ ge t; H_0) có thể được áp dụng cho bất kỳ PDF đa phương thức (tất nhiên, bao gồm cả bimodal) của một thống kê kiểm tra. Sau đó, bạn và Zag cung cấp các giá trị p khác nhau cho PDF đa phương thức của một thống kê kiểm tra. IMHO, định nghĩa của Zag có thể cộng hưởng hơn vì vai trò của giá trị p là định lượng khả năng (hoặc kỳ lạ) của quan sát theo giả thuyết null, như ông đã chỉ ra. Lý do của bạn cho định nghĩa Pr (T \ ge t; H_0) là gì?

— JDL

@JDL, đó chỉ là định nghĩa của giá trị p. Sau đó, câu hỏi trở thành cách tìm một thống kê kiểm tra 'tốt' (& cách xác định 'tốt'). Đôi khi xác suất theo null (hoặc bất kỳ chức năng nào của dữ liệu có cùng thứ tự) được sử dụng làm thống kê kiểm tra. Đôi khi có những lý do chính đáng để chọn người khác, những thứ này chiếm rất nhiều khoảng trống trong sách về thống kê lý thuyết. Tôi nghĩ thật công bằng khi nói rằng họ liên quan đến việc xem xét rõ ràng hoặc ngầm định về các lựa chọn thay thế. ...

— Scortchi - Phục hồi Monica

@JDL, ... Và nếu một quan sát cụ thể có xác suất thấp theo cả null & thay thế thì có vẻ hợp lý khi không coi đó là cực đoan.

— Scortchi - Phục hồi Monica

Cảm ơn câu trả lời của bạn, @Scortchi. Tôi đã đăng một câu hỏi mới và đã thấy ý kiến của bạn ngay sau khi đăng. Dù sao, tôi vẫn chưa rõ về định nghĩa. Cảm ơn bạn một lần nữa cho câu trả lời vui lòng của bạn.

— JDL

Tôi đã thêm một minh họa

— Scortchi - Tái lập Monica