Thử nghiệm t ghép đôi so với không ghép đôi


20

Giả sử tôi có 20 con chuột. Tôi ghép những con chuột theo một cách nào đó, để tôi có được 10 cặp. Với mục đích của câu hỏi này, nó có thể là một cặp ngẫu nhiên, HOẶC nó có thể là một cặp hợp lý, giống như cố gắng ghép những con chuột từ cùng một lứa, cùng giới tính, với trọng lượng tương tự, HOẶC nó có thể là một cặp đôi cố tình ngu ngốc như cố gắng ghép những con chuột có trọng lượng không đồng đều như chúng có thể. Sau đó, tôi sử dụng các số ngẫu nhiên để gán một con chuột trong mỗi cặp cho nhóm điều khiển và con chuột khác cho nhóm được điều trị. Bây giờ tôi thực hiện thí nghiệm, chỉ đối xử với những con chuột được điều trị, nhưng nếu không thì không chú ý đến những sắp xếp vừa thực hiện.

Khi phân tích kết quả, người ta có thể sử dụng thử nghiệm t ghép đôi hoặc thử nghiệm t ghép đôi. Bằng cách nào, nếu có, các câu trả lời sẽ khác nhau? (Về cơ bản, tôi quan tâm đến sự khác biệt có hệ thống của bất kỳ tham số thống kê nào cần được ước tính.)

Lý do tôi hỏi điều này là một bài báo mà tôi mới tham gia gần đây đã bị một nhà sinh vật học chỉ trích vì sử dụng bài kiểm tra t ghép đôi thay vì bài kiểm tra t không ghép đôi. Tất nhiên, trong thử nghiệm thực tế, tình huống không nghiêm trọng như tình huống tôi đã phác thảo, và theo tôi, có những lý do chính đáng để ghép nối. Nhưng các nhà sinh học đã không đồng ý.

Đối với tôi, dường như không thể cải thiện ý nghĩa thống kê một cách không chính xác (giảm giá trị p), trong trường hợp tôi đã phác thảo, bằng cách sử dụng thử nghiệm t ghép đôi, thay vì thử nghiệm không ghép đôi, ngay cả khi nó không phù hợp để ghép nối. Tuy nhiên, nó có thể làm xấu đi ý nghĩa thống kê nếu chuột bị ghép đôi kém. Thê nay đung không?

Câu trả lời:


23

Tôi đồng ý với những điểm mà cả Frank và Peter đều đưa ra nhưng tôi nghĩ có một công thức đơn giản đi vào trọng tâm của vấn đề và có thể đáng để OP xem xét.

Đặt và là hai biến ngẫu nhiên không xác định được mối tương quan.YXY

ĐặtZ=XY

Phương sai của gì?Z

Đây là công thức đơn giản: Điều gì xảy ra nếu (nghĩa là có mối tương quan dương)?

Var(Z)=Var(X)+Var(Y)2Cov(X,Y).
X YCov(X,Y)>0XY

Sau đót XVar(Z)<Var(X)+Var(Y). Trong trường hợp này, nếu việc ghép đôi được thực hiện do có mối tương quan tích cực, chẳng hạn như khi bạn đang xử lý cùng một đối tượng trước và sau khi ghép cặp sẽ giúp vì sự khác biệt của cặp độc lập có phương sai thấp hơn so với phương sai mà bạn có được đối với trường hợp không ghép cặp. Phương pháp giảm phương sai. Bài kiểm tra mạnh hơn. Điều này có thể được hiển thị đáng kể với dữ liệu tuần hoàn. Tôi đã thấy một ví dụ trong một cuốn sách mà họ muốn xem liệu nhiệt độ ở Washington DC có cao hơn ở thành phố New York hay không. Vì vậy, họ lấy nhiệt độ trung bình hàng tháng ở cả hai thành phố trong 2 năm. Tất nhiên có một sự khác biệt rất lớn trong suốt cả năm vì bốn mùa. Biến thể này là quá lớn đối với thử nghiệm không ghép đôi để phát hiện sự khác biệt. Tuy nhiên, việc ghép đôi dựa trên cùng một tháng trong cùng một năm sẽ loại bỏ hiệu ứng theo mùa này và việc ghép nốit -test cho thấy rõ ràng rằng nhiệt độ trung bình ở DC có xu hướng cao hơn ở New York. (nhiệt độ tại NY trong tháng ) và (nhiệt độ ở DC trong tháng ) có mối tương quan tích cực vì các mùa giống nhau ở NY và DC và các thành phố đủ gần để chúng thường trải qua cùng một hệ thống thời tiết ảnh hưởng đến nhiệt độ . DC có thể ấm hơn một chút vì nó ở xa hơn về phía nam. A Y i AXtôiMộtYtôiMột

Lưu ý rằng hiệp phương sai hoặc tương quan càng lớn thì sự giảm phương sai càng lớn.

Bây giờ giả sử là âm.Cov(X,Y)

Sau đó . Bây giờ ghép đôi sẽ tệ hơn là không ghép đôi vì phương sai thực sự tăng lên!Var(Z)>Var(X)+Var(Y)

Khi và không tương thích thì có lẽ bạn không sử dụng phương pháp nào. Trường hợp ghép đôi ngẫu nhiên của Peter giống như tình huống này.YXY


3
Michael, vì "<" và ">" có ý nghĩa đặc biệt trên các trang Web, để tránh việc các văn bản lớn của bạn biến mất khỏi tầm nhìn của bạn, điều cần thiết là bạn sử dụng đánh dấu cho chúng theo phương trình (mã là "\ lt "và" \ gt "tương ứng). Tôi đã đánh dấu hai phương trình gây ra vấn đề này cho bạn. Trong tương lai, vui lòng đọc những gì bạn đăng ngay sau khi đăng để đảm bảo mọi người đang nhìn thấy những gì bạn nghĩ họ sẽ thấy, và sau đó thoải mái gắn cờ bài đăng của bạn để người điều hành chú ý nếu có vấn đề với đánh dấu. TEX
whuber

@whuber Cảm ơn bạn. Tôi thường kiểm tra trong và sau khi đăng bởi vì tôi thấy rằng tôi làm rối các phương trình rất nhiều đặc biệt là khi đăng ký. Thiếu cái này là không bình thường và có lẽ đã xảy ra bởi vì nó là một bài viết dài và tôi chỉ vô tư tiếp tục một cái gì đó mà tôi muốn hoặc cần phải làm. Đôi khi một cuộc gọi điện thoại làm tôi mất tập trung và tôi quên kiểm tra. Về các biểu tượng đặc biệt khiến văn bản biến mất trong một bài đăng, tôi đã quan sát điều đó. Tôi nghĩ rằng một giải pháp đơn giản là đảm bảo bạn để lại một khoảng trống sau biểu tượng. Tôi nghĩ rằng điều đó đã làm việc cho tôi trong quá khứ.
Michael R. Chernick

+1, thực sự tại điểm. Lưu ý rằng nếu & hoàn toàn không tương thích trong mẫu của bạn , . Y Var ( Z ) = Var ( X ) + Var ( Y )XYVar(Z)= =Var(X)+Var(Y)
gung - Phục hồi Monica

@MichaelCécick Đối với trường hợp khi Cov (X, Y) <0, tôi có một câu hỏi: Nếu mục tiêu của tôi là suy ra E [X] -E [Y] từ thí nghiệm của tôi, thì NGAY CẢ KHI tôi đã tiến hành một nghiên cứu ghép đôi, khi tôi phân tích dữ liệu của tôi, tôi vẫn có thể PRETEND rằng kết quả thử nghiệm của tôi là sự hiện thực hóa thử nghiệm ngẫu nhiên UNPAIRED. Tôi có thể làm điều này? Bởi vì nếu bạn thực sự đã làm một thí nghiệm ngẫu nhiên không ghép đôi, bạn hoàn toàn có thể có được kết quả tương tự. Sau đó, tôi chỉ có thể lấy trung bình của mỗi nhóm (bỏ qua các công cụ ghép nối) và lấy sự khác biệt của hai nhóm có nghĩa. Đây là một công cụ ước tính không thiên vị của E [Z]. Để thay đổi công cụ ước tính của tôi, tôi chỉ sử dụng ...
KevinKim

@MichaelCoolick phương sai mẫu của nhóm X và nhóm Y và tổng hợp chúng
KevinKim

7

Thay vì ghép nối, có lẽ tốt hơn để hiểu mô hình dữ liệu cơ bản. Nếu việc ghép đôi được thực hiện để đối phó với sự không đồng nhất không được kiểm soát, thì thông thường (ngoại trừ trong các nghiên cứu sinh đôi) rằng việc ghép đôi chỉ kiểm soát một phần nguồn biến thiên này và hồi quy bội sẽ làm tốt hơn. Điều này là do khớp trên các biến liên tục thường dẫn đến sự biến đổi dư do không thể thực hiện khớp chính xác trên các biến đó.


2
Nếu tất cả chúng ta nên thực hiện hồi quy, tại sao các cuốn sách về Thiết kế thử nghiệm, như cuốn sách của David Cox, nhấn mạnh tầm quan trọng của việc ghép nối hoặc nhóm trong các thí nghiệm sinh học? Ghép nối tránh giả định ẩn của sự phụ thuộc tuyến tính kéo theo hồi quy. Nhưng có lẽ có những lý do khác: bất cứ ai ??
David Epstein

6

Hai bài kiểm tra (ghép đôi và không ghép đôi) đặt các câu hỏi khác nhau để họ có thể nhận được các câu trả lời khác nhau. Ghép nối chính xác gần như luôn luôn mạnh hơn so với ghép đôi - đó thực sự là điểm ghép nối. Vì vậy, vì bạn nói rằng việc ghép nối là chính xác, có khả năng giá trị p cho thử nghiệm được ghép nối của bạn thấp hơn so với cùng một dữ liệu được ghép nối. Tất nhiên, bạn có thể làm cả hai và tự mình xem.

Do đó, câu trả lời cho vấn đề nan giải của bạn là thực chất, không thống kê. Là cặp của bạn phải không?

Bạn có thể nhận được một kết quả quan trọng hơn từ việc ghép đôi ngẫu nhiên so với từ một bài kiểm tra không ghép đôi? Hãy xem:

set.seed(2910110192)
x <- rnorm(100, 10, 2)
y <- rnorm(100, 10, 2)
t.test(x, y)
t.test(x, y, paired = T)

Có bạn có thể, mặc dù ở đây sự khác biệt là rất nhỏ, cặp đã có p thấp hơn. Tôi đã chạy mã đó nhiều lần. Không có gì đáng ngạc nhiên, đôi khi một p thấp hơn, đôi khi khác, nhưng sự khác biệt là nhỏ trong mọi trường hợp. Tuy nhiên, tôi chắc chắn rằng trong một số trường hợp, sự khác biệt về giá trị p có thể lớn.


Cảm ơn câu trả lời, nhưng câu hỏi của tôi yêu cầu sự khác biệt có hệ thống . Rõ ràng, trong một thời gian dài của x và y, đôi khi x và y trông như thể chúng được ghép nối rất tốt, và đôi khi như thể chúng đã được ghép đôi một cách có chủ ý. Chắc chắn đó là một câu hỏi thống kê cho dù, khi chọn ngẫu nhiên x và y, phân phối giá trị p có giống nhau trong hai thử nghiệm hay không. Tôi cho rằng không nên quá khó đối với một người biết nhiều thống kê lý thuyết hơn tôi thực sự tính hai phân phối lý thuyết của các giá trị p. Tôi đoán là họ giống nhau.
David Epstein

Trong trường hợp thực tế tôi đã tham gia, giá trị p cho không ghép đôi là khoảng 0,04 và cho cặp 0,001. Theo các nhà sinh học quan trọng, chúng ta nên trích dẫn 0,04. Theo tôi, sự cải thiện giá trị p mạnh mẽ cho thấy rằng việc ghép đôi của chúng tôi là hợp lệ. Tôi khẳng định có một câu hỏi khách quan trong thống kê ở đây, với một câu trả lời khách quan, và đó không chỉ là một câu hỏi về phán đoán sinh học tốt về tính hợp lệ của việc ghép đôi cụ thể --- câu hỏi sau dường như là ý kiến ​​của Peter Flom và về nhà sinh học quan trọng.
David Epstein

1
Tôi nghĩ rằng số liệu thống kê kể câu chuyện. Cả hai kết quả nên được tiết lộ nhưng miễn là dữ liệu chính xác và mối tương quan có thể được giải thích, thử nghiệm được ghép nối chính xác hơn bởi vì nó tính đến mối tương quan.
Michael R. Chernick

5

Bây giờ tôi hiểu rõ hơn những gì đã làm tôi lo lắng về các bài kiểm tra t ghép đôi và không ghép đôi và các giá trị p liên quan. Tìm ra đã là một hành trình thú vị, và đã có nhiều bất ngờ trên đường đi. Một bất ngờ đã xảy ra từ một cuộc điều tra về sự đóng góp của Michael. Điều này là không thể chấp nhận được về mặt lời khuyên thực tế. Hơn nữa, anh ấy nói những gì tôi nghĩ hầu như tất cả các nhà thống kê đều tin, và anh ấy có một vài sự ủng hộ để ủng hộ điều này. Tuy nhiên, như một phần của lý thuyết, nó không đúng theo nghĩa đen. Tôi đã phát hiện ra điều này bằng cách tìm ra các công thức cho các giá trị p, và sau đó suy nghĩ cẩn thận về cách sử dụng các công thức để dẫn đến các ví dụ ngược. Tôi là một nhà toán học bằng cách đào tạo, và ví dụ phản biện là một "ví dụ phản biện của nhà toán học". Đó không phải là thứ bạn sẽ bắt gặp trong các số liệu thống kê thực tế, điều mà tôi đã cố gắng tìm hiểu khi tôi hỏi câu hỏi ban đầu của mình.

Đây là mã R đưa ra ví dụ ngược lại:

vLength <- 10; meanDiff <-10^9; numSamples <- 3;
pv <- function(vLength,meanDiff) {
    X <- rnorm(vLength)
    Y <- X - meanDiff + rnorm(vLength,sd=0.0001)
    Paired <- t.test(X,Y,var.equal=T,paired=T)
    NotPaired <- t.test(X,Y,var.equal=T,paired=F)
    c(Paired$p.value,NotPaired$p.value,cov(X,Y))
}
ans <- replicate(numSamples,pv(vLength,meanDiff))

Lưu ý các tính năng sau: X và Y là hai bộ 10 có sự khác biệt rất lớn và gần như không đổi. Đối với nhiều số liệu quan trọng, tương quan là 1.000 .... Giá trị p cho thử nghiệm không ghép đôi nhỏ hơn khoảng 10 ^ 40 lần so với giá trị p cho thử nghiệm được ghép nối. Vì vậy, điều này mâu thuẫn với tài khoản của Michael, với điều kiện người ta đọc tài khoản của anh ta theo nghĩa đen, theo kiểu nhà toán học. Ở đây kết thúc một phần câu trả lời của tôi liên quan đến câu trả lời của Michael.


Dưới đây là những suy nghĩ được nhắc nhở bởi câu trả lời của Peter. Trong cuộc thảo luận về câu hỏi ban đầu của tôi, tôi đã phỏng đoán trong một nhận xét rằng hai phân phối cụ thể của các giá trị p có âm thanh khác nhau trên thực tế là giống nhau. Bây giờ tôi có thể chứng minh điều này. Điều quan trọng hơn là bằng chứng cho thấy bản chất cơ bản của giá trị p, cơ bản đến nỗi không có văn bản nào (mà tôi bắt gặp) cả hai phải giải thích. Có thể tất cả các nhà thống kê chuyên nghiệp đều biết bí mật, nhưng với tôi, định nghĩa về giá trị p luôn có vẻ kỳ lạ và giả tạo. Trước khi cho đi bí mật của nhà thống kê, hãy để tôi chỉ định câu hỏi.

Đặt và chọn ngẫu nhiên và độc lập hai ngẫu nhiên từ một số phân phối bình thường. Có hai cách để nhận giá trị p từ lựa chọn này. Một là sử dụng thử nghiệm t không ghép đôi, và thứ hai là sử dụng thử nghiệm t ghép đôi. Phỏng đoán của tôi là sự phân phối các giá trị p mà người ta nhận được là giống nhau trong hai trường hợp. Khi tôi mới bắt đầu nghĩ về nó, tôi đã quyết định rằng phỏng đoán này là điên rồ và sai: bài kiểm tra không ghép đôi có liên quan đến thống kê t trên bậc tự do, và bài kiểm tra ghép nối với một t- thống kê vềnn>1nn - 12(n-1)n-1bậc tự do. Hai phân phối này là khác nhau, vậy làm thế nào trên trái đất các phân phối giá trị p có thể giống nhau? Chỉ sau khi suy nghĩ nhiều hơn, tôi mới nhận ra rằng sự bác bỏ rõ ràng này của tôi là quá dễ dãi.

Câu trả lời đến từ những cân nhắc sau đây. Giả sử là một pdf liên tục (nghĩa là tích phân của nó có giá trị một). Thay đổi tọa độ sẽ chuyển đổi phân phối liên quan thành phân phối đồng đều trên . Công thức là và điều này được giải thích rất nhiều trong nhiều văn bản. Điều mà các văn bản không chỉ ra trong bối cảnh của các giá trị p là đây chính xác là công thức mang lại giá trị p từ thống kê t, khi[ 0 , 1 ] p = t f (f:(0,)(0,)[0,1]f ( - , ) [ 0 , )

p= =tf(S)dS
flà pdf cho phân phối t. (Tôi đang cố gắng duy trì cuộc thảo luận đơn giản nhất có thể, bởi vì nó thực sự đơn giản. Một cuộc thảo luận đầy đủ hơn sẽ đối xử với các thử nghiệm t một mặt và hai mặt hơi khác nhau, các yếu tố của 2 có thể phát sinh và thống kê t có thể nằm trong thay vì trong . Tôi bỏ qua tất cả sự bừa bộn đó.)(-,)[0,)

Chính xác cùng một cuộc thảo luận áp dụng khi tìm giá trị p liên quan đến bất kỳ phân phối tiêu chuẩn nào khác trong thống kê. Một lần nữa, nếu dữ liệu được phân phối ngẫu nhiên (lần này theo một số phân phối khác nhau), thì các giá trị p kết quả sẽ được phân phối đồng đều trong .[0,1]

Làm thế nào điều này áp dụng cho các bài kiểm tra t ghép đôi và không ghép đôi của chúng tôi? Điểm này nằm trong thử nghiệm t được ghép nối, với các mẫu được chọn độc lập và ngẫu nhiên, như trong mã của tôi ở trên, giá trị của t thực sự tuân theo phân phối t (với độ tự do). Vì vậy, các giá trị p xuất phát từ việc sao chép lựa chọn X và Y nhiều lần tuân theo phân phối đồng đều trên . Điều tương tự cũng đúng với phép thử t không ghép đôi, mặc dù lần này phân phối t có bậc tự do. Tuy nhiên, giá trị p mà kết quả cũng có phân phối đồng đều trên , theo đối số chung tôi đã đưa ra ở trên. Nếu mã của Peter ở trên được áp dụng để xác định giá trị p, thì chúng ta sẽ có hai phương pháp riêng biệt để vẽ một mẫu ngẫu nhiên từ phân phối thống nhất trên[ 0 , 1 ] 2 ( n - 1 ) [ 0 , 1 ] [ 0 , 1 ]n-1[0,1]2(n-1)[0,1][0,1] . Tuy nhiên hai câu trả lời không độc lập.


Tôi không nghĩ giá trị p có bất kỳ bí mật bí ẩn nào với nó. Một số người có một thời gian khó khăn với nó. Đó là xác suất quan sát một giá trị là ngoại lệ hoặc cực đoan hơn so với những gì thực tế được quan sát thấy khi giả thuyết null là TRUE. Tôi nghĩ rằng bạn đã có quyền đó trong một trong những công thức của bạn. Tôi nghĩ bạn đã nói rằng giá trị p được phân phối đồng đều. Có, tôi đồng ý với điều đó khi giả thuyết null là đúng. Hãy nhớ rằng với thử nghiệm t của bạn, giả thuyết null có thể không đúng. Khi đó giá trị p không đồng nhất. Nó nên được tập trung gần hơn đến 0.
Michael R. Chernick

Thứ hai, chúng ta đang nói về hai thống kê kiểm tra khác nhau. Một dựa trên ghép nối và một trong ví dụ của bạn. Cho dù tôi có đề cập đến nó trong câu trả lời của mình hay không, thử nghiệm không ghép đôi có phân phối t trung tâm với 2n-2 độ tự do trong khi phân phối t tương ứng cho thử nghiệm t ghép đôi có n-1 độ tự do. Vì vậy, cái có số bậc tự do lớn hơn sẽ gần với phân phối chuẩn hơn so với cái kia. Điều đó có quan trọng khi bạn áp dụng các thử nghiệm này cho dữ liệu thực không? Không! Không phải khi n là hợp lý lớn.
Michael R. Chernick

Như một lưu ý phụ, giới hạn của thử nghiệm được ghép đôi là yêu cầu cỡ mẫu bằng nhau mà bạn nên có nếu tất cả dữ liệu có thể được ghép nối. Nhưng thử nghiệm không ghép đôi là hợp lệ với các cỡ mẫu không bằng nhau. Vì vậy, nói chung, bài kiểm tra không ghép đôi có n + m - 2 bậc tự do.
Michael R. Chernick

Câu trả lời của bạn dài và trừu tượng và tôi đã cố gắng lội qua nó nhưng tôi không hiểu mẫu phản biện. Tôi chỉ không thấy bạn lấy giả thuyết null và dữ liệu thực ở đâu. Giá trị p được quan sát là tích phân của phân phối t thích hợp cho thống kê kiểm tra được cung cấp dữ liệu. Bạn so sánh các số đó cho hai phân phối t và cùng một bộ dữ liệu chung. Nếu bạn dựa trên dữ liệu quan sát thì các bản phân phối thống nhất này không có vai trò gì. Tôi xin lỗi nhưng tôi không thấy rằng câu trả lời của bạn thực sự trả lời câu hỏi của bạn.
Michael R. Chernick

Michael: chỉ tập trung vào mã R mà tôi đã đưa. Nó chỉ mất một giây để chạy. Giả thuyết khống là X và Y đến từ cùng một phân phối bình thường, tất nhiên, điều đó hoàn toàn sai trong trường hợp của tôi. Trong ví dụ của tôi Cov (X, Y)> 0 và tuy nhiên thử nghiệm không ghép đôi mang lại nhiều ý nghĩa hơn so với thử nghiệm được ghép nối.
David Epstein

1

Tôi sẽ cung cấp một quan điểm khác. Thông thường, ghép đôi được thực hiện để làm giảm sự thiên vị. Giả sử rằng bạn quan tâm đến việc liệu tiếp xúc E có phải là yếu tố rủi ro cho kết quả liên tục Y. Đối với mỗi đối tượng E +, bạn sẽ có một đối tượng phù hợp với độ tuổi và giới tính là E-. Bây giờ, chúng ta có thể làm một bài kiểm tra t ghép đôi hoặc một bài kiểm tra t ghép đôi. Tôi nghĩ rằng chúng ta nên tính toán để khớp một cách rõ ràng và tiến hành kiểm tra t cặp. Nguyên tắc hơn là nó đưa thiết kế vào tài khoản. Có nên tính đến sự phù hợp trong phân tích hay không là một vấn đề của sự đánh đổi sai lệch. Kế toán cho sự phù hợp trong phân tích cung cấp bảo vệ nhiều hơn chống lại sự thiên vị, nhưng có thể làm tăng phương sai. Làm một bài kiểm tra t không ghép đôi có thể hiệu quả hơn, nhưng nó sẽ không cung cấp bất kỳ sự bảo vệ nào chống lại sự thiên vị.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.