Không có gì giống như trả lời một câu hỏi thực sự cũ, nhưng ở đây đi ....
giá trị p là các thử nghiệm giả thuyết gần như hợp lệ. Đây là một đoạn trích được điều chỉnh một chút được lấy từ cuốn sách lý thuyết xác suất năm 2003 của Jaynes (Thí nghiệm lặp lại: xác suất và tần suất). Giả sử chúng ta có một giả thuyết null mà chúng ta muốn kiểm tra. Chúng tôi có dữ liệu và thông tin trước . Giả sử rằng có một số giả thuyết không xác định mà chúng tôi sẽ kiểm tra . Tỷ lệ cược sau cho so với sau đó được đưa ra bởi: D I H A H 0 H A H 0H0DIHAH0HAH0
P(HA|DI)P(H0|DI)=P(HA|I)P(H0|I)×P(D|HAI)P(D|H0I)
Bây giờ thuật ngữ đầu tiên ở phía bên phải là độc lập với dữ liệu, vì vậy dữ liệu chỉ có thể ảnh hưởng đến kết quả thông qua thuật ngữ thứ hai. Bây giờ, chúng ta luôn có thể phát minh ra một giả thuyết thay thế sao cho - một giả thuyết "phù hợp hoàn hảo". Do đó, chúng ta có thể sử dụng như một thước đo mức độ dữ liệu có thể hỗ trợ bất kỳ giả thuyết thay thế nào đối với null. Không có giả thuyết thay thế nào cho thấy dữ liệu có thể hỗ trợ trên lớn hơn . Chúng ta cũng có thể hạn chế lớp thay thế và thay đổi là được thay thế bằng khả năng tối đa hóa (bao gồm cả hằng số chuẩn hóa) trong lớp đó. NếuHAP(D|HAI)=11P(D|H0I)H01P(D|H0I)1P(D|H0I)bắt đầu trở nên quá nhỏ, sau đó chúng tôi bắt đầu nghi ngờ về giá trị null, vì số lượng lựa chọn thay thế giữa và tăng lên (bao gồm một số có xác suất trước không đáng kể). Nhưng điều này rất gần với những gì được thực hiện với giá trị p, nhưng với một ngoại lệ: chúng tôi không tính xác suất cho cho một số thống kê và một số khu vực "xấu" của thống kê. Chúng tôi tính toán xác suất cho - thông tin chúng tôi thực sự có, thay vì một số tập hợp con của nó, .H0HAt(D)>t0t(D)Dt(D)
Một lý do khác khiến mọi người sử dụng giá trị p là họ thường đạt được một thử nghiệm giả thuyết "phù hợp", nhưng có thể dễ tính toán hơn. Chúng ta có thể chỉ ra điều này với ví dụ rất đơn giản về kiểm tra giá trị trung bình bình thường với phương sai đã biết. Chúng tôi có dữ liệu với mô hình giả định (một phần thông tin trước ). Chúng tôi muốn kiểm tra . Sau đó, chúng tôi có, sau một chút tính toán:D≡{x1,…,xN}xi∼Normal(μ,σ2)IH0:μ=μ0
P(D|H0I)=(2πσ2)−N2exp(−N[s2+(x¯¯¯−μ0)2]2σ2)
Trong đó và . Điều này cho thấy giá trị tối đa của sẽ đạt được khi . Giá trị tối đa là:x¯¯¯=1N∑Ni=1xis2=1N∑Ni=1(xi−x¯¯¯)2P(D|H0I)μ0=x¯¯¯
P(D|HAI)=(2πσ2)−N2exp(−Ns22σ2)
Vì vậy, chúng tôi lấy tỷ lệ của hai, và chúng tôi nhận được:
P(D|HAI)P(D|H0I)=(2πσ2)−N2exp(−Ns22σ2)(2πσ2)−N2exp(−Ns2+N(x¯¯¯−μ0)22σ2)=exp(z22)
Trong đó là "thống kê Z". Giá trị lớn củađặt ra nghi ngờ về giả thuyết khống, liên quan đến giả thuyết về giá trị trung bình bình thường được hỗ trợ mạnh mẽ nhất bởi dữ liệu. Chúng ta cũng có thể thấy rằng là phần duy nhất của dữ liệu cần thiết và do đó là một thống kê đầy đủ cho thử nghiệm.z=N−−√x¯¯¯−μ0σ|z|x¯¯¯
Cách tiếp cận giá trị p cho vấn đề này gần như giống nhau, nhưng ngược lại. Chúng tôi bắt đầu với thống kê đầy đủ và chúng tôi nhân đôi phân phối lấy mẫu của nó, dễ dàng được hiển thị là - trong đó tôi đã sử dụng chữ in hoa để phân biệt biến ngẫu nhiên với giá trị quan sát . Bây giờ chúng ta cần tìm một khu vực đặt ra nghi ngờ về giả thuyết null: đây có thể dễ dàng được xem là những khu vực cólà lớn Vì vậy, chúng tôi có thể tính xác suất đểx¯¯¯X¯¯¯¯∼Normal(μ,σ2N)X¯¯¯¯x¯¯¯|X¯¯¯¯−μ0||X¯¯¯¯−μ0|≥|x¯¯¯−μ0|như một thước đo khoảng cách dữ liệu quan sát được từ giả thuyết null. Như trước đây, đây là một phép tính đơn giản và chúng tôi nhận được:
p-value=P(|X¯¯¯¯−μ0|≥|x¯¯¯−μ0||H0)
=1−P[−N−−√|x¯¯¯−μ0|σ≤N−−√X¯¯¯¯−μ0σ≤N−−√|x¯¯¯−μ0|σ|H0]
=1−P(−|z|≤Z≤|z||H0)=2[1−Φ(|z|)]
Bây giờ, chúng ta có thể thấy rằng giá trị p là hàm giảm đơn điệu của, có nghĩa là về cơ bản chúng tôi nhận được câu trả lời giống như bài kiểm tra giả thuyết "đúng". Từ chối khi giá trị p nằm dưới một ngưỡng nhất định cũng giống như từ chối khi tỷ lệ cược sau vượt quá ngưỡng nhất định. Tuy nhiên, lưu ý rằng khi thực hiện bài kiểm tra phù hợp, chúng tôi phải xác định lớp thay thế và chúng tôi phải tối đa hóa xác suất đối với lớp đó. Đối với giá trị p, chúng ta phải tìm một thống kê và tính toán phân phối lấy mẫu của nó và đánh giá giá trị này ở giá trị quan sát được. Trong một số ý nghĩa, việc chọn một thống kê tương đương với việc xác định giả thuyết thay thế mà bạn đang xem xét.|z|
Mặc dù cả hai đều là những điều dễ dàng để làm trong ví dụ này, nhưng chúng không phải lúc nào cũng dễ dàng trong các trường hợp phức tạp hơn. Trong một số trường hợp, có thể dễ dàng hơn để chọn thống kê phù hợp để sử dụng và tính toán phân phối lấy mẫu của nó. Trong những trường hợp khác, có thể dễ dàng hơn để xác định lớp thay thế và tối đa hóa lớp đó.
Ví dụ đơn giản này chiếm một lượng lớn thử nghiệm dựa trên giá trị p, đơn giản là vì rất nhiều thử nghiệm giả thuyết thuộc loại "gần đúng bình thường". Nó cũng cung cấp một câu trả lời gần đúng cho vấn đề tiền xu của bạn (bằng cách sử dụng xấp xỉ bình thường cho nhị thức). Nó cũng cho thấy giá trị p trong trường hợp này sẽ không khiến bạn lạc lối, ít nhất là về mặt kiểm tra một giả thuyết. Trong trường hợp này, chúng ta có thể nói rằng giá trị p là thước đo bằng chứng chống lại giả thuyết khống.
Tuy nhiên, giá trị p có thang đo ít dễ hiểu hơn yếu tố vịnh - liên kết giữa giá trị p và "số lượng" bằng chứng chống lại null là phức tạp. giá trị p trở nên quá nhỏ quá nhanh - điều này khiến chúng khó sử dụng đúng cách. Họ có xu hướng phóng đại sự hỗ trợ chống lại null được cung cấp bởi dữ liệu. Nếu chúng tôi giải thích giá trị p là xác suất so với null - ở dạng tỷ lệ cược là , khi bằng chứng thực tế là và ở dạng tỷ lệ cược là khi bằng chứng thực tế là . Hoặc nói cách khác, sử dụng giá trị p làm xác suất null là sai ở đây, tương đương với việc đặt tỷ lệ cược trước. Vậy đối với giá trị p là0.193.870.05196.830.1tỷ lệ cược trước ngụ ý so với null là và với giá trị p tỷ lệ cược trước ngụ ý so với null là .2.330.052.78