Một phân phối thống nhất của nhiều giá trị p có đưa ra bằng chứng thống kê rằng H0 là đúng không?


28

Một thử nghiệm thống kê duy nhất có thể đưa ra bằng chứng cho thấy giả thuyết null (H0) là sai và do đó, giả thuyết thay thế (H1) là đúng. Nhưng nó không thể được sử dụng để chỉ ra rằng H0 là đúng vì không từ chối H0 không có nghĩa là H0 là đúng.

Nhưng giả sử bạn có khả năng thực hiện kiểm tra thống kê nhiều lần vì bạn có nhiều bộ dữ liệu, tất cả đều độc lập với nhau. Tất cả các bộ dữ liệu là kết quả của cùng một quy trình và bạn muốn đưa ra một số tuyên bố (H0 / H1) qua chính quá trình đó và không quan tâm đến kết quả của từng thử nghiệm. Sau đó, bạn thu thập tất cả các giá trị p kết quả và tình cờ thấy qua biểu đồ biểu đồ rằng các giá trị p được phân phối rõ ràng thống nhất.

Lý do của tôi bây giờ là điều này chỉ có thể xảy ra nếu H0 là đúng - nếu không các giá trị p sẽ được phân phối khác nhau. Do đó, điều này có đủ bằng chứng để kết luận rằng H0 là đúng không? Hoặc tôi đang thiếu ở đây một cái gì đó thiết yếu, bởi vì tôi đã mất rất nhiều ý chí để viết "kết luận rằng H0 là đúng", điều này nghe có vẻ sai lầm khủng khiếp trong đầu tôi.


1
Bạn có thể quan tâm đến câu trả lời của tôi cho một số liệu thống kê câu hỏi khác.stackexchange.com/questions/171742/NH có một số nhận xét về các giả thuyết ở đây.
mdewey

H0 là sai theo định nghĩa của nó.
Joshua

1
Bên cạnh đó, lý do tại sao tôi có quá nhiều bài kiểm tra (và chưa kết hợp tất cả dữ liệu thành một) là dữ liệu của tôi được phân phối không gian trên toàn cầu và tôi muốn xem liệu có các mẫu không gian trong giá trị p (không có, nhưng nếu có thì điều đó có nghĩa là độc lập bị vi phạm hoặc H0 / H1 là đúng ở các khu vực khác nhau trên toàn cầu). Tôi chưa bao gồm điều này trong văn bản câu hỏi vì tôi muốn giữ nó chung chung.
Leander Moesinger

Câu trả lời:


22

H0H0H0

CẬP NHẬT

Đây là cuộc biểu tình. Tôi tạo ra 100 mẫu của 100 quan sát từ phân phối Gaussian và Poisson, sau đó thu được 100 giá trị p để kiểm tra tính chuẩn của từng mẫu. Vì vậy, tiền đề của câu hỏi là nếu các giá trị p là từ phân phối đồng đều, thì nó chứng minh rằng giả thuyết null là chính xác, đó là một tuyên bố mạnh mẽ hơn so với "không từ chối" thông thường trong suy luận thống kê. Vấn đề là "các giá trị p là từ đồng phục" là một giả thuyết mà bạn phải kiểm tra bằng cách nào đó.

Trong ảnh (hàng đầu tiên) bên dưới tôi đang hiển thị biểu đồ của các giá trị p từ một phép thử tính quy tắc cho mẫu Guassian và Poisson, và bạn có thể thấy rằng thật khó để nói liệu cái này có đồng nhất hơn cái kia không. Đó là điểm chính của tôi.

Hàng thứ hai hiển thị một trong các mẫu từ mỗi phân phối. Các mẫu tương đối nhỏ, vì vậy bạn thực sự không thể có quá nhiều thùng. Trên thực tế, mẫu Gaussian đặc biệt này hoàn toàn không giống với Gaussian trên biểu đồ.

Ở hàng thứ ba, tôi đang hiển thị các mẫu kết hợp gồm 10.000 quan sát cho mỗi phân phối trên biểu đồ. Ở đây, bạn có thể có nhiều thùng hơn, và hình dạng rõ ràng hơn.

Cuối cùng, tôi chạy thử nghiệm tính quy tắc tương tự và nhận giá trị p cho các mẫu kết hợp và nó từ chối tính quy tắc cho Poisson, trong khi không từ chối đối với Gaussian. Các giá trị p là: [0.45348631] [0.]

nhập mô tả hình ảnh ở đây

Tất nhiên, đây không phải là một bằng chứng, nhưng việc chứng minh ý tưởng rằng bạn nên chạy thử nghiệm tương tự trên mẫu kết hợp, thay vì cố gắng phân tích phân phối giá trị p từ các mẫu con.

Đây là mã Python:

import numpy as np
from scipy import stats
from matplotlib import pyplot as plt

def pvs(x):
    pn = x.shape[1]
    pvals = np.zeros(pn)
    for i in range(pn):
        pvals[i] = stats.jarque_bera(x[:,i])[1]
    return pvals

n = 100
pn = 100
mu, sigma = 1, 2
np.random.seed(0)
x = np.random.normal(mu, sigma, size=(n,pn))
x2 = np.random.poisson(15, size=(n,pn))
print(x[1,1])

pvals = pvs(x)
pvals2 = pvs(x2)

x_f = x.reshape((n*pn,1))
pvals_f = pvs(x_f)

x2_f = x2.reshape((n*pn,1))
pvals2_f = pvs(x2_f)
print(pvals_f,pvals2_f)

print(x_f.shape,x_f[:,0])


#print(pvals)
plt.figure(figsize=(9,9))
plt.subplot(3,2,1)
plt.hist(pvals)
plt.gca().set_title('True Normal')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,2)
plt.hist(pvals2)
plt.gca().set_title('Poisson')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,3)
plt.hist(x[:,0])
plt.gca().set_title('a small sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,4)
plt.hist(x2[:,0])
plt.gca().set_title('a small Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,5)
plt.hist(x_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,6)
plt.hist(x2_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.show()

2
@LeanderMoesinger bạn sẽ tạo ra một điểm mạnh hơn bằng cách thu thập tất cả các bài kiểm tra của bạn thành một. Giả sử, bạn có một mẫu với 100 quan sát và nhận giá trị p; sau đó lấy 99 mẫu bổ sung và kết thúc với 100 giá trị p. Thay vào đó, bạn chỉ có thể chạy 10.000 mẫu quan sát và nhận giá trị p, nhưng nó sẽ thuyết phục hơn.
Aksakal

1
@LeanderMoesinger, nó có thể không nhỏ
Aksakal

1
Câu trả lời của bạn không giải quyết được câu hỏi, anh ấy không hỏi về bằng chứng mà là về bằng chứng .
Carlos Cinelli

3
@CarlosCinelli, anh ta sẽ có một loạt các giá trị p, mà anh ta sẽ tuyên bố là đồng nhất. Làm thế nào đây là một bằng chứng trừ khi anh ta chứng minh các giá trị là từ đồng phục? Đó là những gì tôi đang nói về.
Aksakal

2
@Aksakal đây là về toán học, một sự kiện được quan sát (như một chuỗi các giá trị p) có thể không cấu thành bằng chứng của một cái gì đó, nhưng lý do không theo logic của bạn.
Carlos Cinelli

21

n

H0H0

David Hume và vấn đề cảm ứng

H0H0

aA[aB]

  • Trong nhiều thế kỷ, mọi con thiên nga được người châu Âu quan sát đều có màu trắng. Sau đó, người châu Âu phát hiện ra Úc và nhìn thấy thiên nga đen.

  • Trong nhiều thế kỷ, định luật hấp dẫn của Newton đã đồng ý với quan sát và được cho là đúng. Nó đã bị đảo ngược mặc dù theo thuyết tương đối rộng của Einstein.

H0

Một danh sách (không đầy đủ) các cách chuyển tiếp:

Karl Popper và giả mạo

Theo quan điểm của Karl Popper , không có luật khoa học nào được chứng minh là đúng. Chúng tôi chỉ có luật khoa học chưa được chứng minh là sai.

Popper lập luận rằng khoa học tiến lên phía trước bằng cách đoán các giả thuyết và khiến chúng phải chịu sự kiểm tra gắt gao. Nó tiến lên phía trước thông qua suy luận (quan sát chứng minh lý thuyết sai), không cảm ứng (quan sát lặp đi lặp lại chứng minh lý thuyết đúng). Phần lớn số liệu thống kê thường xuyên được xây dựng phù hợp với triết lý này.

Quan điểm của Popper đã có ảnh hưởng vô cùng lớn, nhưng như Kuhn và những người khác đã lập luận, nó không hoàn toàn phù hợp với thực tiễn quan sát thực nghiệm của khoa học thành công.

Bayes, xác suất chủ quan

θ

θθθP(θ)P(θX)θX. Cách bạn cư xử trong các tình huống khác nhau có một số tương ứng với các xác suất chủ quan này.

Đây là một cách hợp lý để mô hình hóa niềm tin chủ quan của riêng bạn, nhưng nó không phải là một cách kỳ diệu để tạo ra xác suất đúng về mặt tương ứng với thực tế. Một câu hỏi khó cho bất kỳ sự giải thích Bayes nào là các linh mục đến từ đâu? Ngoài ra, nếu mô hình bị sai chính tả thì sao?

George P. Hộp

Một câu cách ngôn nổi tiếng của George EP Box là "tất cả các mô hình đều sai, nhưng một số là hữu ích."

Định luật của Newton có thể không đúng, nhưng nó vẫn hữu ích cho nhiều vấn đề. Quan điểm của Box khá quan trọng trong bối cảnh dữ liệu lớn hiện đại, nơi các nghiên cứu bị áp đảo đến mức bạn có thể từ chối về cơ bản bất kỳ đề xuất có ý nghĩa nào. Hoàn toàn đúng so với sai là một câu hỏi tồi: điều quan trọng là liệu một mô hình có giúp bạn hiểu dữ liệu hay không.

Ý kiến ​​khác

θ0

Có lẽ cũng đáng quan tâm, phân tích thống kê kết quả của nhiều nghiên cứu được gọi là phân tích tổng hợp .

Làm thế nào đến nay bạn có thể đi xa hơn những diễn giải thống kê hẹp là một câu hỏi khó.


Đây là một bài đọc thú vị và đưa ra một số điều tốt đẹp để suy nghĩ! Tôi ước tôi có thể chấp nhận nhiều câu trả lời.
Leander Moesinger

Khá là một lời giải thích. Giáo sư của tôi đã từng tóm tắt Kuhn theo tinh thần của Popper: 'Khoa học tiến bộ từ đám tang đến đám tang'
skrubber

Kuhn v.v ... nổi tiếng hiểu sai Popper khi tuyên bố những quan sát của mình không phù hợp với cách khoa học được thực hiện. Điều này được gọi là giả mạo bản địa, và nó không phải là những gì Popper (sau này) đưa ra. Đó là một người đàn ông rơm.
Konrad Rudolph

2
Đó là câu trả lời như thế này Tôi tiếp tục truy cập các trang web StackExchange.
Trilarion

5

Theo một nghĩa nào đó, bạn đã đúng (xem đường cong p) với một số cảnh báo nhỏ:

  1. pααH0
  2. H0H0

Với các ứng dụng thực tế, bạn có xu hướng nhận được các vấn đề bổ sung. Chúng chủ yếu phát sinh, bởi vì không ai / phòng thí nghiệm / nhóm nghiên cứu thường có thể thực hiện tất cả các nghiên cứu cần thiết. Kết quả là người ta có xu hướng xem xét các nghiên cứu từ nhiều nhóm, tại thời điểm đó bạn đã tăng mối quan tâm (nghĩa là nếu bạn đã tự mình thực hiện tất cả các thử nghiệm có liên quan, ít nhất là bạn biết) về việc báo cáo thiếu, báo cáo chọn lọc về những phát hiện quan trọng / đáng ngạc nhiên, p-hack, nhiều thử nghiệm / nhiều thử nghiệm sửa chữa và như vậy.


1
(+1) Điểm sức mạnh cực kỳ quan trọng! Các lý thuyết khác nhau có thể tạo ra dữ liệu tương đương quan sát và một phần quan trọng của thiết kế thử nghiệm là tạo và / hoặc thu thập dữ liệu cho phép bạn phân biệt.
Matthew Gunn

-2

Giả thuyết không (H0): Trọng lực khiến mọi thứ trong vũ trụ rơi xuống bề mặt Trái đất.

Giả thuyết thay thế (H1): Không có gì rơi xuống.

p<0.01


2
Bạn có nghĩ Galileo đã thực hiện một triệu thử nghiệm không? Không có thứ này là cần thiết trong khoa học vật lý. Thiết lập quy luật tự nhiên bằng cách áp dụng phương pháp khoa học không làm giảm suy luận thống kê.
Aksakal

1
-1 Điều này là khoa học, thống kê và lịch sử không chính xác. Người Hy Lạp đã từng tin rằng chính mối quan hệ đã thu hút các vật thể đến Trái đất. Không tệ, nhưng không giải thích rõ hơn 3 vấn đề về hệ thống cơ thể. Các giả thuyết nên được bổ sung. Cuối cùng nêu rõ một thiên vị có thể được biết đến là H_0 và hiển thị các thử nghiệm tiếp tục dẫn đến cùng một kết luận không chính xác không đưa ra kết luận chính xác. ví dụ: phụ nữ kiếm được ít tiền hơn nam giới, họ ít bị điều khiển, lấy mẫu tất cả tiền lương của phụ nữ, H_0 là đúng!
AdamO

@AdamO đó chính xác là quan điểm của tôi.
usul

@AdamO, ở các nước phương Tây, phụ nữ kiếm được ít tiền hơn khi họ làm việc ít hơn vì nhiều lý do bao gồm cả sự lựa chọn của họ, sự không tôn trọng của tất cả các loại và môi trường làm việc thù địch ở một số nơi. Khi họ làm việc như nhau, họ kiếm được như nhau, ví dụ như xem lương y tá của bác sĩ nơi phụ nữ chiếm đa số: medscape.com/slemony/ ,. Tất cả họ đều kiếm được cùng $ 37 khi làm việc hàng giờ. Hoàn toàn lạc đề, tất nhiên.
Aksakal

2
Nếu giả thuyết khống của bạn Gravity causes everything in the universe to fall toward Earth's surfacekhông phải là giả thuyết thay thế There is at least one thing in the universe that does not fall toward the Earth's surfacevà không Nothing ever falls?
Eff
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.