Là tập dữ liệu lớn không phù hợp để kiểm tra giả thuyết?


129

Trong một bài báo gần đây của Amstat News , các tác giả (Mark van der Laan và Sherri Rose) đã tuyên bố rằng "Chúng tôi biết rằng đối với các cỡ mẫu đủ lớn, mọi nghiên cứu bao gồm cả những giả thuyết không có hiệu lực là không đúng - sẽ tuyên bố có ý nghĩa thống kê. ".

Chà, tôi không biết điều đó. Điều này có đúng không? Có nghĩa là kiểm tra giả thuyết là vô giá trị đối với các tập dữ liệu lớn?


10
+1: câu hỏi này thường phơi bày một số quan điểm thú vị.
user603

7
Thảo luận thêm về các tập dữ liệu lớn xuất hiện tại stats.stackexchange.com/q/7815/919 . (Trọng tâm là mô hình hồi quy ở đó.)
whuber


8
Nếu một mẫu lớn khiến bạn nghĩ rằng kiểm tra giả thuyết là công cụ sai, thì kiểm tra giả thuyết không thực sự trả lời đúng câu hỏi ở các mẫu nhỏ hơn - rằng nó đã sai rõ ràng hơn ở các cỡ mẫu lớn, nhưng các cân nhắc tương tự có liên quan . Nếu một kết quả quan trọng ở kích thước hiệu ứng rất nhỏ khiến bạn phải nói "tốt, đó không phải là điều tôi muốn, tôi muốn nó cho tôi biết nếu nó quan trọng" thì thử nghiệm giả thuyết chỉ là công cụ sai lầm bắt đầu. Có nhiều công cụ phù hợp hơn (ví dụ: khoảng tin cậy, kiểm tra tương đương, v.v.) cho loại vấn đề đó.
Glen_b

Câu trả lời:


91

Không phải như vậy. Nếu giả thuyết null là đúng thì nó sẽ không bị từ chối thường xuyên hơn ở cỡ mẫu lớn hơn nhỏ. Có một tỷ lệ loại bỏ sai lầm thường được đặt thành 0,05 (alpha) nhưng nó không phụ thuộc vào cỡ mẫu. Do đó, thực hiện theo nghĩa đen tuyên bố là sai. Tuy nhiên, có thể trong một số trường hợp (thậm chí toàn bộ các trường), tất cả các giá trị null đều sai và do đó tất cả sẽ bị từ chối nếu N đủ cao. Nhưng đây có phải là một điều xấu?

Điều đúng là các hiệu ứng nhỏ không đáng kể có thể được tìm thấy là "đáng kể" với kích thước mẫu rất lớn. Điều đó không cho thấy rằng bạn không nên có kích thước mẫu lớn như vậy. Điều đó có nghĩa là cách bạn diễn giải phát hiện của mình phụ thuộc vào kích thước hiệu ứng và độ nhạy của xét nghiệm. Nếu bạn có kích thước hiệu ứng rất nhỏ và thử nghiệm có độ nhạy cao, bạn phải nhận ra rằng phát hiện có ý nghĩa thống kê có thể không có ý nghĩa hoặc hữu ích.

Do một số người không tin rằng một bài kiểm tra giả thuyết null, khi null là đúng , luôn có tỷ lệ lỗi bằng với điểm cắt được chọn cho bất kỳ kích thước mẫu nào, đây là một mô phỏng đơn giản để Rchứng minh điểm. Làm cho N lớn như bạn muốn và tỷ lệ lỗi Loại I sẽ không đổi.

# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000

ps <- replicate(nsamp, {
    #population mean = 0, sd = 1 for both samples, therefore, no real effect
    y1 <- rnorm(n, 0, 1) 
    y2 <- rnorm(n, 0, 1)
    tt <- t.test(y1, y2, var.equal = TRUE)
    tt$p.value
})
sum(ps < .05) / nsamp

# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.

8
+1: thực sự, cả ba câu trả lời ở đây đều phù hợp về mặt logic với nhau.
user603

1
Cuối cùng tôi đã tìm thấy một bản sửa lỗi của một thứ mà một giáo sư (không thống kê) đã nói với tôi từ lâu.
Jase

1
@Sympa, không. Chỉ vì SE đi xuống khi N đi lên không có nghĩa là bạn sẽ luôn tìm thấy hiệu ứng với N lớn (xem mô phỏng). Hãy nhớ rằng khi SE đang đi xuống, chất lượng của ước tính hiệu ứng sẽ tăng lên. Nếu không có hiệu ứng dân số thì nhiều khả năng nó sẽ gần bằng 0 và không có sự khác biệt. Trong thực tế, việc phân phối các giá trị p là bằng phẳng bất kể kích thước mẫu bất cứ khi nào null là đúng (viết mô phỏng của riêng bạn cho điều đó). Không có mâu thuẫn trong câu trả lời.
John

4
Sau đó, bạn sẽ sai. Bạn có thể muốn xem xét việc đọc các câu trả lời khác ở đây là tốt. Vì bạn không thể theo dõi mối quan hệ giữa thử nghiệm mô phỏng và giả thuyết, tôi đoán tôi chỉ có thể chỉ ra yêu cầu chính của bạn rằng khi lỗi tiêu chuẩn giảm, t tăng và p giảm. Điều này chỉ đúng khi hiệu ứng không đổi. Nhưng hiệu ứng là một mẫu ngẫu nhiên và khi hiệu ứng thực là 0 thì khi N tăng hiệu ứng quan sát có xu hướng giảm. Do đó, mặc dù, khi N tăng SE đi xuống, nó sẽ không tăng giá trị t vì tử số trong giá trị t cũng sẽ thấp hơn.
Giăng

1
Thực tế là rnorm không thể tạo ra một số vô tỷ là không liên quan trong ví dụ. Ngay cả khi nó không rút ra chính xác bình thường từ trung bình 0 và sd là 1, thì nó cũng không bình thường đối với cả hai mẫu. Tỷ lệ lỗi Loại I có thể hơi quá 0,05 nhưng nó không đổi bất kể N. Và điều đó không đúng với tất cả các mô phỏng vì tôi có thể đã chọn một mô hình rời rạc trong đó điều này không phải là vấn đề. (Nếu bạn thực sự muốn nêu ra một vấn đề bí truyền thì bạn nên giải quyết sự ngẫu nhiên giả.)
John

31

Tôi đồng ý với các câu trả lời đã xuất hiện, nhưng muốn thêm rằng có lẽ câu hỏi có thể được chuyển hướng. Có nên kiểm tra một giả thuyết hay không là một câu hỏi nghiên cứu, ít nhất là nói chung, không phụ thuộc vào số lượng dữ liệu mà người ta có. Nếu bạn thực sự cần kiểm tra một giả thuyết, hãy làm như vậy và đừng sợ khả năng phát hiện các hiệu ứng nhỏ của bạn. Nhưng trước tiên hãy hỏi liệu đó có phải là một phần trong mục tiêu nghiên cứu của bạn không.

Bây giờ cho một số ngụy biện:

  • Một số giả thuyết null hoàn toàn đúng khi xây dựng. Chẳng hạn, khi bạn đang kiểm tra một trình tạo số giả ngẫu nhiên để phân phối, và PRG đó thực sự được phân bổ (sẽ là một định lý toán học), thì null sẽ giữ nguyên. Có lẽ hầu hết các bạn có thể nghĩ về các ví dụ thực tế thú vị hơn phát sinh từ ngẫu nhiên trong các thí nghiệm trong đó việc điều trị thực sự không có kết quả. (Tôi sẽ đưa ra toàn bộ tài liệu về đặc quyền là một ví dụ.;)

  • Trong một tình huống mà một "đơn giản" null được thử nghiệm chống lại một "hợp chất" thay thế, như trong cổ điển t-test hoặc z-kiểm tra, thông thường mất một cỡ mẫu tỷ lệ với để phát hiện kích thước ảnh hưởng của ε . Có một giới hạn thực tế ràng buộc với điều này trong bất kỳ nghiên cứu nào, ngụ ý rằng có một giới hạn thực tế thấp hơn về kích thước hiệu ứng có thể phát hiện được. Vì vậy, như một vấn đề lý thuyết der Laan và Rose là chính xác, nhưng chúng ta nên cẩn thận trong việc áp dụng kết luận của họ.1/ε2ε


Đây không phải là vấn đề của lỗi loại I so với lỗi loại II (hoặc nguồn) sao? Nếu một người sửa xác suất lỗi loại I ( ) ở mức 0,05, thì rõ ràng (ngoại trừ trong trường hợp riêng biệt), nó sẽ là 0,05 cho dù mẫu có lớn hay không. Nhưng đối với xác suất lỗi loại I nhất định, 0,05, ví dụ: công suất hoặc xác suất mà bạn sẽ phát hiện hiệu ứng khi có, lớn hơn đối với kích thước mẫu lớn. α

@fcop Nhận xét của bạn, mặc dù đúng, dường như được hướng vào các câu trả lời khác. Họ bỏ lỡ quan điểm của điều này, điều này cho thấy rằng không phải tất cả các phân tích thống kê đều cần phải là các bài kiểm tra giả thuyết. Lỗi loại I và II chỉ có ý nghĩa khi tiến hành kiểm tra giả thuyết chính thức.
whuber

OP đề cập đến một tuyên bố: '' Chúng tôi biết rằng đối với các cỡ mẫu đủ lớn, mọi nghiên cứu đều bao gồm cả những giả thuyết không có hiệu lực là đúng - sẽ tuyên bố một hiệu ứng có ý nghĩa thống kê. '' Vì vậy, nếu bạn kiểm tra ví dụ so với H 1 : μ 1 sau đó trong các mẫu lớn sức mạnh là quá cao mà bạn phát hiện 'lệch thậm chí nhỏ từ 1. vì vậy, tôi nghĩ rằng tuyên bố của họ là không đúng, nhưng mà sức mạnh trong các mẫu lớn cho phép bạn phát hiện sự khác biệt rất nhỏ. H0:μ=1H1:μ1

@fcop Cảm ơn bạn đã giải thích. Tôi đồng ý với lý luận của bạn: khi null là đúng, thì bằng cách xây dựng, ngay cả các nghiên cứu lớn cũng sẽ tìm thấy hiệu quả đáng kể với cơ hội nhiều nhất bằng với quy mô thử nghiệm của họ - nghĩa là, họ sẽ khó có thể tìm thấy hiệu quả đáng kể.
whuber

19

Theo truyền thống, kiểm tra giả thuyết tập trung vào các giá trị p để rút ra ý nghĩa thống kê khi alpha nhỏ hơn 0,05 có một điểm yếu lớn. Và, đó là với kích thước mẫu đủ lớn, bất kỳ thí nghiệm nào cuối cùng cũng có thể bác bỏ giả thuyết khống và phát hiện ra những khác biệt nhỏ tầm thường hóa ra có ý nghĩa thống kê.

Đây là lý do tại sao các công ty dược cấu trúc các thử nghiệm lâm sàng để được FDA chấp thuận với các mẫu rất lớn. Mẫu lớn sẽ giảm sai số chuẩn xuống gần bằng không. Điều này đến lượt nó sẽ tăng chỉ số t một cách giả tạo và hạ thấp giá trị p xuống gần 0%.

Tôi tập hợp trong các cộng đồng khoa học không bị làm hỏng bởi các khuyến khích kinh tế và xung đột liên quan đến thử nghiệm giả thuyết lợi ích đang tránh xa mọi phép đo giá trị p đối với các phép đo Kích thước Hiệu ứng. Điều này là do đơn vị khoảng cách thống kê hoặc sự khác biệt trong phân tích Hiệu ứng kích thước là độ lệch chuẩn thay vì sai số chuẩn. Và, độ lệch chuẩn hoàn toàn độc lập với kích thước mẫu. Mặt khác, lỗi tiêu chuẩn hoàn toàn phụ thuộc vào cỡ mẫu.

Vì vậy, bất cứ ai nghi ngờ về thử nghiệm giả thuyết đều đạt được kết quả có ý nghĩa thống kê dựa trên các mẫu lớn và các phương pháp liên quan đến giá trị p đều có quyền bị hoài nghi. Họ nên chạy lại phân tích bằng cách sử dụng cùng một dữ liệu nhưng thay vào đó sử dụng các thử nghiệm thống kê Kích thước hiệu ứng. Và, sau đó quan sát xem Kích thước hiệu ứng có được coi là vật liệu hay không. Bằng cách làm như vậy, bạn có thể quan sát thấy một loạt các khác biệt có ý nghĩa thống kê có liên quan đến Kích thước hiệu ứng là không quan trọng. Đó là những gì các nhà nghiên cứu thử nghiệm lâm sàng đôi khi có nghĩa là khi một kết quả có ý nghĩa thống kê nhưng không "có ý nghĩa lâm sàng". Họ có nghĩa là một điều trị có thể tốt hơn giả dược, nhưng sự khác biệt là rất nhỏ đến nỗi nó sẽ không tạo ra sự khác biệt cho bệnh nhân trong bối cảnh lâm sàng.


1
Mẫu lớn của một người là mẫu nhỏ của người khác. :)
Lặp lại

3
Không phải bạn đã hỏi sai rồi sao? Có lẽ quy trình phê duyệt của FDA nên chỉ định mức tăng lớn hơn so với giả dược (có lẽ liên quan đến chi phí của thuốc, bao gồm cả tác dụng phụ của nó) thay vì chỉ yêu cầu ý nghĩa thống kê? Bởi vì rất có thể có một sự khác biệt thực sự, mặc dù rất nhỏ, và sự khác biệt đó đã được chứng minh là có ý nghĩa thống kê tuy nhỏ.
Emil Vikström

FDA không yêu cầu "chỉ có ý nghĩa thống kê". Điều đó sẽ là vô lý. Mọi người trong ngành đều hiểu "ý nghĩa lâm sàng" nghĩa là gì. FDA cân nhắc các bằng chứng thống kê về hiệu quả của thuốc được đo bằng các điểm cuối lâm sàng, chẳng hạn như thuyên giảm, chống lại các mối quan tâm về sức khỏe và an toàn. Vui lòng đọc hướng dẫn của FDA trước khi đưa ra các xác nhận vô căn cứ.
qwr

15

Một thử nghiệm giả thuyết (thường xuyên), chính xác, giải quyết câu hỏi về xác suất của dữ liệu được quan sát hoặc một cái gì đó cực đoan hơn có thể sẽ cho rằng giả thuyết null là đúng. Giải thích này là không quan tâm đến kích thước mẫu. Giải thích đó là hợp lệ cho dù mẫu có kích thước 5 hoặc 1.000.000.

Một cảnh báo quan trọng là thử nghiệm chỉ liên quan đến lỗi lấy mẫu. Bất kỳ lỗi đo lường, vấn đề lấy mẫu, phạm vi bảo hiểm, lỗi nhập dữ liệu, vv đều nằm ngoài phạm vi của lỗi lấy mẫu. Khi kích thước mẫu tăng lên, các lỗi không lấy mẫu sẽ có ảnh hưởng lớn hơn vì các lần khởi hành nhỏ có thể tạo ra các lần khởi hành đáng kể từ mô hình lấy mẫu ngẫu nhiên. Kết quả là, các bài kiểm tra có ý nghĩa trở nên ít hữu ích hơn.

Đây không phải là một bản cáo trạng của thử nghiệm quan trọng. Tuy nhiên, chúng ta cần phải cẩn thận về các bản phân phối của chúng tôi. Một kết quả có thể có ý nghĩa thống kê. Tuy nhiên, chúng ta cần thận trọng về cách chúng ta thực hiện các phân bổ khi kích thước mẫu lớn. Đó có phải là sự khác biệt do quá trình tạo giả thuyết của chúng tôi gây ra lỗi lấy mẫu vis hay đó là kết quả của bất kỳ lỗi nào trong số các lỗi không lấy mẫu có thể ảnh hưởng đến thống kê kiểm tra (mà thống kê không tính đến)?

Một xem xét khác với các mẫu lớn là ý nghĩa thực tế của một kết quả. Một thử nghiệm quan trọng có thể gợi ý (ngay cả khi chúng ta có thể loại trừ lỗi không lấy mẫu) một sự khác biệt không đáng kể theo nghĩa thực tế. Ngay cả khi kết quả đó không chắc chắn được đưa ra cho mô hình lấy mẫu, nó có đáng kể trong bối cảnh của vấn đề không? Cho một mẫu đủ lớn, sự khác biệt trong một vài đô la có thể đủ để tạo ra một kết quả có ý nghĩa thống kê khi so sánh thu nhập giữa hai nhóm. Đây có phải là quan trọng trong bất kỳ ý nghĩa có ý nghĩa? Ý nghĩa thống kê là không thay thế cho đánh giá tốt và kiến ​​thức vấn đề.

Như một bên, null không đúng cũng không sai. Đó là một mô hình. Đó là một giả định. Chúng tôi giả sử null là đúng và đánh giá mẫu của chúng tôi theo giả định đó. Nếu mẫu của chúng tôi không thể đưa ra giả định này, chúng tôi sẽ tin tưởng hơn vào sự thay thế của chúng tôi. Để đặt câu hỏi liệu một null có bao giờ đúng trong thực tế hay không là một sự hiểu lầm về logic của kiểm tra ý nghĩa.


3
Điều này hỗ trợ một đối số cho độ phức tạp của mô hình tăng lên khi kích thước mẫu trở nên lớn - trong trường hợp mẫu lớn, lỗi lấy mẫu không còn là vấn đề chi phối của độ không đảm bảo. Tất nhiên điều này chỉ "có ý nghĩa" trong khuôn khổ Bayes, cho phép các nguồn không chắc chắn khác bên cạnh lỗi lấy mẫu.
xác suất

13

Một điểm đơn giản không được đưa ra trực tiếp trong một câu trả lời khác là nó đơn giản là không đúng sự thật rằng "tất cả các giả thuyết null đều sai."

Giả thuyết đơn giản rằng một đồng tiền vật lý có xác suất đứng đầu chính xác bằng 0,5, ok, đó là sai.

α

α


9

Theo một nghĩa nào đó, [tất cả] nhiều giả thuyết khống là [luôn] sai (nhóm người sống trong nhà có số lẻ không bao giờ kiếm được chính xác trung bình như nhóm người sống trong nhà có số chẵn).

Tαviết sai rồi-0,5Tααviết sai rồi

Đây không phải là một khiếm khuyết của các bài kiểm tra thống kê. Đơn giản chỉ là hậu quả của thực tế là không có thêm thông tin (trước đó), chúng ta có một số lượng lớn các mâu thuẫn nhỏ với null phải được lấy làm bằng chứng chống lại null. Cho dù những sự mâu thuẫn này có tầm thường đến mức nào.

P^(|μ¯1-μ¯2|2>η|η,X)


Thật kỳ lạ ... theo trực giác, điều này dường như mâu thuẫn với Luật số lượng lớn.
Carlos Accioly

Carlos:> bạn có thể cụ thể hơn?
user603

viết sai rồi

1
@Carlos - nhưng hội tụ không có nghĩa là bình đẳng; điều này chỉ được đảm bảo cho giới hạn vô hạn không thể truy cập. Vì vậy, không có mâu thuẫn ;-)

5

Câu trả lời ngắn gọn là không". Nghiên cứu kiểm tra giả thuyết trong chế độ tiệm cận của các quan sát vô hạn và nhiều giả thuyết đã rất, rất tích cực trong 15-20 năm qua, vì dữ liệu microarray và các ứng dụng dữ liệu tài chính. Câu trả lời dài nằm trong trang khóa học của Stat 329, "Suy luận đồng thời quy mô lớn", được giảng dạy năm 2010 bởi Brad Efron. Một chương đầy đủ được dành cho thử nghiệm giả thuyết quy mô lớn.


7
Tôi tin rằng cuốn sách của Efron tập trung vào một số lượng lớn các biến số (và kết quả là nhiều vấn đề thử nghiệm phát sinh), chứ không phải kích thước mẫu.
Galit Shmueli

4

Kiểm tra giả thuyết cho dữ liệu lớn nên mức độ khác biệt mong muốn vào tài khoản, thay vì có sự khác biệt hay không. Bạn không quan tâm đến H0 rằng ước tính là chính xác 0. Cách tiếp cận chung sẽ là kiểm tra xem sự khác biệt giữa giả thuyết null và giá trị quan sát có lớn hơn giá trị ngưỡng đã cho hay không.

X1¯>X2¯

T= =X1¯-X2¯-δS2viết sai rồi+δS2viết sai rồiVIẾT SAI RỒI(δS2viết sai rồi,1)
T= =X1¯-X2¯S2viết sai rồiVIẾT SAI RỒI(δS2viết sai rồi,1)

H0:X1¯-X2¯= =δ

X1¯-X2¯-δS2viết sai rồiVIẾT SAI RỒI(0,1)

HMộtX1¯-X2¯>δ .

mod.test <- function(x1,x2,dif,...){
    avg.x1 <- mean(x1)
    avg.x2 <- mean(x2)
    sd.x1 <- sd(x1)
    sd.x2 <- sd(x2)

    sd.comb <- sqrt((sd.x1^2+sd.x2^2)/2)
    n <- length(x1)
    t.val <- (abs(avg.x1-avg.x2))*sqrt(n)/sd.comb
    ncp <- (dif*sqrt(n)/sd.comb)
    p.val <- pt(t.val,n-1,ncp=ncp,lower.tail=FALSE)
    return(p.val)
}

n <- 5000

test1 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.05))$p.value)
table(test1<0.05)
test2 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.5))$p.value)
table(test2<0.05)

test3 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.05),dif=0.3))
table(test3<0.05)

test4 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.5),dif=0.3))
table(test4<0.05)

Cung cấp cho:

> table(test1<0.05)
FALSE  TRUE 
   24    76 

> table(test2<0.05)
TRUE 
 100 

> table(test3<0.05)
FALSE 
  100 

> table(test4<0.05)
TRUE 
 100 

không có một bản sao / lỗi đánh máy trong phương trình đầu tiên?
user603

Tôi không thấy nó à?
Joris Meys

4

"Điều đó có nghĩa là kiểm tra giả thuyết là vô giá trị đối với các tập dữ liệu lớn?"

Không, nó không có nghĩa như vậy. Thông điệp chung là các quyết định được đưa ra sau khi tiến hành kiểm tra giả thuyết nên luôn luôn tính đến kích thước hiệu ứng ước tính và không chỉ giá trị p. Đặc biệt, trong các thí nghiệm với kích thước mẫu rất lớn, điều cần thiết này để xem xét kích thước hiệu ứng trở nên kịch tính. Tất nhiên, nói chung, người dùng không thích điều này vì quy trình trở nên ít "tự động" hơn.

Hãy xem xét ví dụ mô phỏng này. Giả sử bạn có một mẫu ngẫu nhiên 1 triệu quan sát từ phân phối chuẩn thông thường,

n <- 10^6
x <- rnorm(n)

0,01

y <- rnorm(n, mean = 0.01)

95%2,5×10-14

t.test(x, y)

        Welch Two Sample t-test

data:  x and y
t = -7.6218, df = 1999984, p-value = 2.503e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.013554059 -0.008009031
sample estimates:
   mean of x    mean of y 
0.0008947038 0.0116762485

95%[-0,013,-0,008] .

Là một sự khác biệt giữa hai phương tiện dân số của thứ tự cường độ này có liên quan đến vấn đề cụ thể mà chúng ta đang nghiên cứu hay không?


Tôi đồng ý với tất cả mọi thứ trong câu trả lời của bạn ngoại trừ câu đầu tiên, mà tôi đổi thành "Có, nó thường có nghĩa là", bởi vì với các mẫu lớn khoảng một triệu hoặc kích thước hiệu ứng là nhỏ.
zbicyclist

α

3

HST:Cười mở miệng1= =1,23,Cười mở miệng2= =1.11,Giáo dụcCười mở miệngTôi

Nhưng người ta thường không quan tâm đến giả thuyết điều chắc chắn này. Nếu bạn nghĩ về những gì bạn thực sự muốn làm với bài kiểm tra giả thuyết, bạn sẽ sớm nhận ra rằng bạn chỉ nên từ chối giả thuyết khống nếu bạn có cái gì đó tốt hơn để thay thế nó. Ngay cả khi null của bạn không giải thích được dữ liệu, sẽ không có ích gì khi vứt nó đi, trừ khi bạn có người thay thế. Bây giờ bạn sẽ luôn thay thế null bằng giả thuyết "điều chắc chắn" chứ? Có lẽ là không, bởi vì bạn không thể sử dụng giả thuyết "điều chắc chắn" này để khái quát hóa vượt ra ngoài tập dữ liệu của bạn. Nó không nhiều hơn là in ra dữ liệu của bạn.

Vì vậy, những gì bạn nên làm là xác định giả thuyết rằng bạn thực sự sẽ quan tâm đến việc hành động nếu chúng là sự thật. Sau đó làm bài kiểm tra thích hợp để so sánh các lựa chọn thay thế đó với nhau - và không phải với một số giả thuyết không liên quan mà bạn biết là sai hoặc không sử dụng được.

H0:μ= =0H1:μ{±1,±2,±3,±4,±5,±6}0,5100

Về cơ bản, kết luận là bạn cần xác định không gian giả thuyết của mình - những giả thuyết mà bạn thực sự quan tâm. Có vẻ như với dữ liệu lớn, điều này trở thành một điều rất quan trọng, đơn giản là vì dữ liệu của bạn có sức mạnh giải quyết rất nhiều. Cũng có vẻ như điều quan trọng là so sánh như giả thuyết - điểm với điểm, hợp chất với hợp chất - để có được kết quả ứng xử tốt.


3

Không. Đúng là tất cả các thử nghiệm giả thuyết điểm hữu ích đều phù hợp và do đó sẽ hiển thị một kết quả quan trọng nếu chỉ có cỡ mẫu đủ lớn và tồn tại một số hiệu ứng không liên quan. Để khắc phục nhược điểm này của kiểm tra giả thuyết thống kê (đã được đề cập bởi câu trả lời của Gaetan Lion ở trên), có các thử nghiệm liên quan. Đây là tương tự như các xét nghiệm tương đương nhưng thậm chí ít phổ biến hơn. Đối với một thử nghiệm liên quan, kích thước của một hiệu ứng có liên quan tối thiểu được quy định trước. Kiểm tra mức độ liên quan có thể dựa trên khoảng tin cậy cho hiệu ứng: Nếu khoảng tin cậy và vùng liên quan tách rời nhau, bạn có thể từ chối null.

Tuy nhiên, van der Laan và Rose cho rằng trong tuyên bố của họ, rằng ngay cả những giả thuyết không có thật cũng được thử nghiệm trong các nghiên cứu. Nếu một giả thuyết không có giá trị là đúng, thì khả năng loại bỏ không lớn hơn alpha, đặc biệt là trong trường hợp mẫu lớn và thậm chí sai chính tả, tôi chỉ có thể thấy rằng phân phối mẫu khác với hệ thống phân bố dân số,


3

Bài báo bạn đề cập có một điểm hợp lệ, liên quan đến các bài kiểm tra thường xuyên tiêu chuẩn. Đó là lý do tại sao kiểm tra cho một kích thước hiệu ứng nhất định là rất quan trọng. Để minh họa, đây là một anova giữa 3 nhóm, trong đó nhóm B hơi khác so với nhóm A và C. hãy thử điều này trong r:

treat_diff=0.001 #size of treatment difference
ns=c(10, 100, 1000, 10000, 100000, 1000000) #values for sample size per group considered
reps=10 #number of test repetitions for each sample size considered
p_mat=data.frame(n=factor(), p=double()) #create empty dataframe for outputs
for (n in ns){ #for each sample size
  for (i in c(1:reps)){ #repeat anova test ‘reps’ time
    treatA=data.frame(treatment="A", val=rnorm(n)) 
    treatB=data.frame(treatment="B", val=rnorm(n)+treat_diff) #this is the group that has the means slightly different from the other groups
    treatC=data.frame(treatment="C", val=rnorm(n))
    all_treatment=rbind(treatA, treatB, treatC)
    treatment_aov=aov(val~treatment, data=all_treatment)
    aov_summary=summary(treatment_aov)
    p=aov_summary[[1]][["Pr(>F)"]][1]
    temp_df=data.frame(n=n, p=p)
    p_mat=rbind(p_mat, temp_df)
  }
}

library(ggplot2)
p <- ggplot(p_mat, aes(factor(n), p))
p + geom_boxplot()

Như mong đợi, với số lượng mẫu lớn hơn trên mỗi thử nghiệm, ý nghĩa thống kê của thử nghiệm tăng lên: nhập mô tả hình ảnh ở đây


2

Tôi nghĩ điều họ muốn nói là người ta thường đưa ra một giả định về mật độ xác suất của giả thuyết null có dạng 'đơn giản' nhưng không tương ứng với mật độ xác suất thực.

Bây giờ với các tập dữ liệu nhỏ, bạn có thể không đủ độ nhạy để thấy hiệu ứng này nhưng với tập dữ liệu đủ lớn, bạn sẽ từ chối giả thuyết null và kết luận rằng có một hiệu ứng mới thay vì kết luận rằng giả định của bạn về giả thuyết null là sai.


1
Tôi không biết Mark và Shern có suy nghĩ của bạn không, nhưng chỉ cần diễn đạt lại quan điểm của bạn - nếu mô hình cho dữ liệu dưới null là 'sai' thì bạn sẽ từ chối giả thuyết null cho dữ liệu đủ lớn.

1

α

H0H1

Công suất tăng theo cỡ mẫu (tất cả những thứ khác bằng nhau).

Nhưng tuyên bố rằng "Chúng tôi biết rằng đối với các cỡ mẫu đủ lớn, mọi nghiên cứu bao gồm cả những nghiên cứu trong đó giả thuyết không có hiệu lực là đúng - sẽ tuyên bố một hiệu ứng có ý nghĩa thống kê." không chính xác

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.