Làm thế nào mạnh mẽ là thử nghiệm t mẫu độc lập khi phân phối của các mẫu là không bình thường?


24

Tôi đã đọc rằng t -test là "hợp lý mạnh mẽ" khi phân phối của các mẫu khởi hành từ tính quy tắc. Tất nhiên, đó là phân phối mẫu của những khác biệt quan trọng. Tôi có dữ liệu cho hai nhóm. Một trong các nhóm bị sai lệch nhiều về biến phụ thuộc. Cỡ mẫu khá nhỏ đối với cả hai nhóm (n = 33 ở một và 45 ở nhóm kia). Tôi có nên cho rằng, trong những điều kiện này, t- test của tôi sẽ mạnh mẽ để vi phạm các giả định về tính quy tắc?


3
"Tất nhiên, đó là phân phối mẫu của những khác biệt quan trọng" - Sự khác biệt trong cái gì? Tôi đã cố gắng chỉnh sửa câu hỏi này vì tôi sợ nó gây hiểu lầm cho những độc giả tương lai (và tiếp tuyến với ý chính). Suy nghĩ đầu tiên của tôi là đó là một tham chiếu nhầm với một t- test được ghép nối , trong đó chúng tôi cho rằng sự khác biệt giữa các cặp là bình thường, nhưng điều đó không áp dụng trong một thử nghiệm mẫu độc lập. Chúng tôi thậm chí không có cặp để khác biệt! Có lẽ "sự khác biệt trong phương tiện" được dự định? Phần còn lại của Q xem xét tính quy tắc của hai mẫu, không có sự khác biệt nào.
Cá bạc

Câu hỏi về việc t- test mạnh đến mức nào đối với những vi phạm như vậy là một vấn đề quan trọng và hợp pháp. Nhưng một vấn đề liên quan là trước tiên, việc kiểm tra vi phạm trong dữ liệu của bạn và chỉ sau đó quyết định nên áp dụng thử nghiệm t -test hoặc một số thử nghiệm thay thế, không được khuyến nghị. Một quy trình gồm nhiều bước như vậy có đặc điểm hoạt động không chắc chắn. Xem chủ đề này: Một phương pháp nguyên tắc để lựa chọn giữa t test hoặc không tham số, ví dụ Wilcoxon trong các mẫu nhỏ
Silverfish

Nguồn đáng tin cậy là gì? (Tôi đồng ý rằng cả hai chúng tôi đều đồng ý rằng không có thứ gọi là nguồn chính thức). Chúng ta đang nhìn vào mức độ mạnh mẽ hay sức mạnh? Và nếu "cũng có sức mạnh" ... chúng ta đang nói về loại thay thế nào?
Glen_b -Reinstate Monica

@Glen_b Xin lỗi, thông báo tiền thưởng "nguồn chính thức" rõ ràng là nhiều hơn cho StackOverflow! Tôi chỉ cảm thấy chủ đề này thực sự quan trọng (cộng với lưu lượng truy cập khá cao và kém trên Wikipedia) để ghi nhận một vài trích dẫn. Mẫu tiền thưởng "câu trả lời chính tắc" sẽ không phù hợp vì câu trả lời của Peter Flom hiển thị rõ ràng. Tôi có cảm giác có một "kiến thức chung" về chủ đề này - nếu tôi được hỏi Q này, thì danh sách của tôi sẽ trông giống như của Dallal (Tôi đã thêm kurtosis, nhưng không mạo hiểm với cỡ mẫu bằng nhau bảo vệ so với tính phi quy tắc chung)
Cá bạc

@Glen_b Câu trả lời của bạn khai thác một tĩnh mạch tương tự vì vậy có vẻ như có một số điểm cơ bản được biết đến / chấp nhận rộng rãi. Bằng cấp của tôi bao gồm các giả định nhưng không phải là hậu quả của vi phạm: kiến ​​thức của tôi được rút ra từ các nguồn khác nhau, các bit và bobs rải rác về (loại sách "thống kê cho các nhà tâm lý học" có thể chú ý đến hậu quả hơn nhiều văn bản lý thuyết thống kê) - nếu không tôi đã đăng một câu trả lời không phải là tiền thưởng! Nếu bất cứ ai biết một bản tóm tắt một trang đàng hoàng trong một cuốn sách giáo khoa tốt, điều đó sẽ làm tôi ổn. Nếu đó là một vài bài báo có kết quả mô phỏng, điều đó cũng tốt. Bất cứ điều gì độc giả tương lai có thể tham khảo và trích dẫn.
Cá bạc

Câu trả lời:


16

Các câu hỏi về sự mạnh mẽ rất khó để trả lời tốt - bởi vì các giả định có thể bị vi phạm theo nhiều cách, và theo từng cách ở các mức độ khác nhau. Công việc mô phỏng chỉ có thể lấy mẫu một phần rất nhỏ trong các vi phạm có thể xảy ra.

Với trạng thái của máy tính, tôi nghĩ rằng thường đáng để dành thời gian để chạy cả kiểm tra tham số và kiểm tra không tham số, nếu cả hai đều có sẵn. Sau đó bạn có thể so sánh kết quả.

Nếu bạn thực sự tham vọng, bạn thậm chí có thể làm một bài kiểm tra hoán vị.

Điều gì sẽ xảy ra nếu Alan Turing đã hoàn thành công việc của mình trước khi Ronald Fisher làm việc của mình? :-).


1
Peter, bạn đã truyền cảm hứng cho tôi viết tiểu thuyết lịch sử để trả lời chính xác câu hỏi đó!
Sycorax nói phục hồi Monica

12

@PeterFlom nhấn móng tay chết với câu đầu tiên của mình.

Tôi sẽ cố gắng đưa ra một bản tóm tắt sơ bộ về những nghiên cứu tôi đã thấy (nếu bạn muốn liên kết thì có thể mất một lúc):

Nhìn chung, hai bài kiểm tra mẫu có sức mạnh hợp lý đến mức không đối xứng (tỷ lệ lỗi loại I thực sự bị ảnh hưởng phần nào bởi sự suy yếu, sức mạnh bị ảnh hưởng chủ yếu bởi điều đó).

Khi hai mẫu bị lệch nhẹ theo cùng một hướng, thử nghiệm t một đầu không còn không thiên vị. Thống kê t bị lệch trái ngược với phân phối và có sức mạnh lớn hơn nhiều nếu thử nghiệm theo một hướng so với khi nó theo hướng khác. Nếu chúng bị lệch theo hướng ngược lại, tỷ lệ lỗi loại I có thể bị ảnh hưởng nặng nề.

Độ lệch nặng có thể có tác động lớn hơn, nhưng nói chung, độ lệch vừa phải với thử nghiệm hai đuôi không quá tệ nếu bạn không quan tâm đến thử nghiệm của mình về bản chất phân bổ nhiều sức mạnh của nó sang hướng khác.

Nói tóm lại - bài kiểm tra t hai mẫu, hai đuôi rất hợp lý đối với những điều đó nếu bạn có thể chịu đựng được một số tác động ở mức ý nghĩa và một số sai lệch nhẹ.

Tuy nhiên, có rất nhiều cách để phân phối không bình thường, tuy nhiên, không được bao phủ bởi những bình luận đó.


Tôi không chắc chắn chính xác khi nói rằng nó có sức mạnh hợp lý! Đó là mức độ hợp lý - mạnh mẽ, mức ý nghĩa sẽ gần đúng, nhưng ví dụ các xét nghiệm wilcoxon có thể có sức mạnh cao hơn nhiều đối với các lựa chọn thay thế gần với tính quy phạm rất khó phát hiện. Điều này cũng phụ thuộc vào các yếu tố như nếu có số lượng quan sát bằng nhau trong mỗi nhóm: độ mạnh sẽ dễ vỡ hơn nhiều trong trường hợp không bằng nhau!
kjetil b halvorsen

1
@kjetilbhalvorsen Các nghiên cứu tôi đã xem - bao gồm một số mô phỏng tôi đã tự mình thực hiện (và tôi đã không xem xét bất kỳ lúc nào; bạn có thể đã thấy điều gì đó tôi chưa từng thấy), phần lớn ảnh hưởng đến sức mạnh dường như chủ yếu là đẩy cấp độ lên và xuống (điều này không ảnh hưởng đến Wilcoxon). Với các đặc tính sức mạnh nói chung tốt của Wilcoxon trong những trường hợp này (đặc biệt là đuôi nặng), điều đó đủ để Wilcoxon giành được quyền lực - nếu bạn điều chỉnh các cấp độ sao cho giống nhau, điều đó làm tôi ngạc nhiên về mức độ thường xuyên đã làm.
Glen_b -Reinstate Monica

7

@PeterFlom đã đề cập rằng các nghiên cứu mô phỏng không bao giờ có thể bao gồm tất cả các kịch bản và khả năng và do đó không thể dẫn đến một câu trả lời rõ ràng. Tuy nhiên, tôi vẫn thấy hữu ích khi thực sự khám phá một vấn đề như thế này bằng cách thực hiện một số mô phỏng (đây cũng chính xác là loại bài tập mà tôi muốn sử dụng khi giới thiệu ý tưởng nghiên cứu mô phỏng Monte Carlo cho sinh viên). Vì vậy, hãy thực sự thử điều này. Tôi sẽ sử dụng R cho việc này.

Mật mã

n1 <- 33
n2 <- 45
mu1 <- 0
mu2 <- 0
sd1 <- 1
sd2 <- 1

iters <- 100000
p1 <- p2 <- p3 <- p4 <- p5 <- rep(NA, iters)

for (i in 1:iters) {

   ### normal distributions
   x1 <- rnorm(n1, mu1, sd1)
   x2 <- rnorm(n2, mu2, sd2)
   p1[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the right
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p2[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the left
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p3[i] <- t.test(x1, x2)$p.value

   ### first skewed to the left, second skewed to the right
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2)      * sd2 + mu2
   p4[i] <- t.test(x1, x2)$p.value

   ### first skewed to the right, second skewed to the left
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2)      * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p5[i] <- t.test(x1, x2)$p.value

}

print(round((apply(cbind(p1, p2, p3, p4, p5), 2, function(p) mean(p <= .05))), 3))

Giải trình

  1. Đầu tiên chúng ta đặt kích thước nhóm ( n1n2), nhóm thực có nghĩa là ( mu1mu2) và độ lệch chuẩn thực ( sd1sd2).

  2. Sau đó, chúng tôi xác định số lần lặp để chạy và thiết lập các vectơ để lưu trữ giá trị p trong.

  3. Sau đó, tôi mô phỏng dữ liệu theo 5 kịch bản:

    1. Cả hai bản phân phối đều bình thường.
    2. Cả hai phân phối bị lệch sang phải.
    3. Cả hai bản phân phối bị lệch sang trái.
    4. Phân phối đầu tiên bị lệch sang trái, phân phối thứ hai sang phải.
    5. Phân phối đầu tiên bị lệch sang phải, phân phối thứ hai sang trái.

    Lưu ý rằng tôi đang sử dụng các phân phối chi bình phương để tạo các phân phối sai lệch. Với một mức độ tự do, đó là những phân phối sai lệch nặng nề. Vì giá trị trung bình và phương sai thực sự của phân phối chi bình phương với một bậc tự do tương ứng bằng 1 và 2 ( xem wikipedia ), tôi hủy bỏ các phân phối đó trước tiên có giá trị 0 và độ lệch chuẩn 1 và sau đó bán lại chúng để có mong muốn trung bình thực và độ lệch chuẩn (điều này có thể được thực hiện trong một bước, nhưng thực hiện theo cách này có thể rõ ràng hơn).

  4. Trong mỗi trường hợp, tôi áp dụng thử nghiệm t (phiên bản của Welch - tất nhiên người ta cũng có thể xem xét phiên bản của Học sinh có giả định phương sai bằng nhau trong hai nhóm) và lưu giá trị p vào các vectơ được thiết lập trước đó.

  5. Cuối cùng, khi tất cả các lần lặp hoàn thành, tôi tính toán cho mỗi vectơ tần suất giá trị p bằng hoặc dưới 0,05 (nghĩa là thử nghiệm là "đáng kể"). Đây là tỷ lệ từ chối theo kinh nghiệm.

Một số kết quả

  1. Mô phỏng chính xác như mô tả ở trên năng suất:

       p1    p2    p3    p4    p5 
    0.049 0.048 0.047 0.070 0.070
    

    α= =0,05

  2. Nếu chúng ta thay đổi mã thành mu1 <- .5, thì chúng ta sẽ nhận được:

       p1    p2    p3    p4    p5 
    0.574 0.610 0.606 0.592 0.602
    

    Vì vậy, so với trường hợp cả hai phân phối đều bình thường (như giả định của thử nghiệm), công suất thực sự có vẻ cao hơn một chút khi độ lệch cùng hướng! Nếu bạn ngạc nhiên về điều này, bạn có thể muốn chạy lại điều này một vài lần (tất nhiên, mỗi lần nhận được kết quả hơi khác nhau), nhưng mô hình sẽ vẫn còn.

    Lưu ý rằng chúng ta phải cẩn thận với việc diễn giải các giá trị công suất theo kinh nghiệm trong hai trường hợp có độ lệch ở hai hướng ngược nhau, vì tỷ lệ lỗi Loại I không hoàn toàn là danh nghĩa (như một trường hợp cực đoan, giả sử tôi luôn từ chối bất kể dữ liệu là gì cho thấy, sau đó tôi sẽ luôn có một bài kiểm tra với sức mạnh tối đa, nhưng tất nhiên bài kiểm tra cũng có tỷ lệ lỗi Loại I khá cao).

Người ta có thể bắt đầu khám phá một loạt các giá trị cho mu1(và mu2- nhưng điều thực sự quan trọng là sự khác biệt giữa hai) và quan trọng hơn là bắt đầu thay đổi độ lệch chuẩn thực sự của hai nhóm (nghĩa là sd1sd2) và đặc biệt là làm cho chúng không bằng nhau. Tôi cũng bị mắc kẹt với các kích thước mẫu được đề cập bởi OP, nhưng tất nhiên điều đó cũng có thể được điều chỉnh. Và sự sai lệch tất nhiên có thể có nhiều hình thức khác ngoài những gì chúng ta thấy trong một phân phối chi bình phương với một mức độ tự do. Tôi vẫn nghĩ rằng tiếp cận mọi thứ theo cách này là hữu ích, mặc dù thực tế là nó không thể mang lại một câu trả lời chắc chắn.


2
Vì chúng ta có một loạt các phương pháp bán tham số mạnh mẽ hiện nay, tại sao cuộc thảo luận này rất đáng giá?
Frank Harrell

(+1) Tôi nghĩ rằng nó có thể có giá trị bao gồm cả trường hợp một mẫu được rút ra từ dân số bị lệch và mẫu kia thì không, vì đây là những gì OP nghĩ có thể xảy ra với dữ liệu của họ. Nhưng thật tuyệt khi thấy một câu trả lời với mã rõ ràng. . .)
Cá bạc

2

Trong tình huống của bạn, kiểm tra t có thể sẽ mạnh mẽ về tỷ lệ lỗi Loại I, nhưng không phải là tỷ lệ lỗi Loại II. Bạn có thể sẽ đạt được nhiều sức mạnh hơn thông qua a) một bài kiểm tra Kruskal-Wallis hoặc b) một phép biến đổi chuẩn hóa trước khi kiểm tra t.

Tôi đang dựa trên kết luận này về hai nghiên cứu ở Monte Carlo. Trong lần đầu tiên ( Khan & Rayner, 2003 ), xiên và kurtosis được điều khiển gián tiếp thông qua các tham số của họ phân phối g-and-k, và sức mạnh kết quả đã được kiểm tra. Quan trọng hơn, sức mạnh của bài kiểm tra Kruskal- Wallis ít bị tổn hại bởi tính phi quy tắc, đặc biệt là với n> = 15.

Một vài lưu ý / trình độ về nghiên cứu này: Sức mạnh thường bị tổn thương do nhiễm trùng cao, nhưng nó ít bị ảnh hưởng bởi xiên. Thoạt nhìn, mô hình này có vẻ ít liên quan đến tình huống của bạn do bạn đã lưu ý một vấn đề với độ lệch, không phải là sự suy yếu. Tuy nhiên, tôi cá rằng kurtosis dư thừa cũng cực kỳ trong trường hợp của bạn. Hãy nhớ rằng mức độ tổn thương dư thừa ít nhất sẽ cao bằng độ lệch ^ 2 - 2. (Đặt mức độ tổn thương dư thừa bằng thời điểm chuẩn hóa thứ 4 trừ đi 3, sao cho mức độ tổn thương dư thừa = 0 cho phân phối bình thường.) Cũng lưu ý rằng Khan và Rayner ( 2003) đã kiểm tra ANOVAs với 3 nhóm, nhưng kết quả của họ có khả năng tổng quát thành thử nghiệm t hai mẫu.

Một nghiên cứu có liên quan thứ hai ( Beasley, Erikson, & Allison, 2009) đã kiểm tra cả lỗi Loại I và Loại II với các bản phân phối không bình thường khác nhau, chẳng hạn như Chi bình phương (1) và Weibull (1, .5). Đối với kích thước mẫu ít nhất là 25, thử nghiệm t kiểm soát đầy đủ tỷ lệ lỗi Loại I ở hoặc dưới mức alpha danh nghĩa. Tuy nhiên, sức mạnh là cao nhất với bài kiểm tra Kruskal-Wallis hoặc với phép biến đổi nghịch đảo dựa trên xếp hạng (điểm số Blom) được áp dụng trước bài kiểm tra t. Beasley và các đồng nghiệp thường lập luận chống lại phương pháp bình thường hóa, nhưng cần lưu ý rằng phương pháp bình thường hóa kiểm soát tỷ lệ lỗi Loại I cho n> = 25, và sức mạnh của nó đôi khi vượt quá một chút so với thử nghiệm Kruskal-Wallis. Đó là, phương pháp bình thường hóa có vẻ hứa hẹn cho tình huống của bạn. Xem bảng 1 và 4 trong bài viết của họ để biết chi tiết.

Tài liệu tham khảo:

Khan, A., & Rayner, GD (2003) . Tính mạnh mẽ đối với tính không quy tắc của các thử nghiệm phổ biến đối với bài toán vị trí nhiều mẫu. Tạp chí toán học ứng dụng và khoa học quyết định, 7 , 187-206.

Beasley, TM, Erickson, S., & Allison, DB (2009) . Biến đổi nghịch đảo bình thường dựa trên xếp hạng ngày càng được sử dụng, nhưng chúng có công không? Di truyền học hành vi, 39 , 580-595.


(thừa) kurtosisnghiêng2-2

Đó dường như là một câu hỏi xứng đáng với chủ đề riêng của nó. Có lẽ mối quan tâm của bạn là sự suy yếu quá mức sẽ bị sai lệch đi xuống trong các mẫu nhỏ? Tất nhiên, đó cũng là trường hợp trong các nghiên cứu mô phỏng ở trên, và kurtosis vẫn gây ra công suất thấp trong thử nghiệm t trong các tình huống đó. Câu hỏi của bạn chỉ ra một giới hạn chung hơn của hầu hết các nghiên cứu ở Monte Carlo: kết luận thường dựa trên đặc điểm dân số, đặc điểm mà nhà nghiên cứu ứng dụng không thể quan sát được. Sẽ hữu ích hơn khi có thể dự đoán sức mạnh tương đối dựa trên mẫu xiên, kurtosis, v.v.
Anthony

Tôi đã đăng một câu hỏi riêng về vấn đề này: stats.stackexchange.com/questions/133247/ Khăn
Anthony

0

Trước hết, nếu bạn cho rằng phân phối của hai mẫu là khác nhau, hãy đảm bảo rằng bạn đang sử dụng phiên bản thử nghiệm t của Welch, giả định phương sai không đồng đều giữa các nhóm. Điều này ít nhất sẽ cố gắng giải thích cho một số khác biệt xảy ra do phân phối.

Nếu chúng ta nhìn vào công thức cho bài kiểm tra t của người xứ Wales:

t= =X¯1-X¯2SX¯1-X¯2

SX¯1-X¯2

SX¯1-X¯2= =S12n1+S22n2

chúng ta có thể thấy rằng bất cứ khi nào có một s chúng ta đều biết rằng phương sai đang được tính đến. Chúng ta hãy tưởng tượng rằng hai phương sai trên thực tế là giống nhau, nhưng một phương sai, dẫn đến một ước tính phương sai khác nhau. Nếu ước tính phương sai này không thực sự đại diện cho dữ liệu của bạn do sai lệch, thì về cơ bản, hiệu ứng sai lệch sẽ là căn bậc hai của sai lệch đó chia cho số điểm dữ liệu được sử dụng để tính toán. Do đó, ảnh hưởng của các ước lượng xấu của phương sai bị bóp nghẹt một chút bởi căn bậc hai và n cao hơn, và đó có lẽ là lý do tại sao sự đồng thuận là nó vẫn là một thử nghiệm mạnh mẽ.

Vấn đề khác của phân phối lệch là tính toán trung bình cũng sẽ bị ảnh hưởng và đây có lẽ là vấn đề thực sự của vi phạm giả định kiểm tra là do phương tiện tương đối nhạy cảm với độ lệch. Và độ mạnh của thử nghiệm có thể được xác định một cách đại khái bằng cách tính toán sự khác biệt về phương tiện, so với sự khác biệt về trung vị (như một ý tưởng). Có lẽ bạn thậm chí có thể thử thay thế sự khác biệt về phương tiện bằng sự khác biệt về trung vị trong bài kiểm tra t như một biện pháp mạnh mẽ hơn (tôi chắc chắn ai đó đã thảo luận về điều này nhưng tôi không thể tìm thấy một cái gì đó trên google đủ nhanh để liên kết đến).

Tôi cũng đề nghị chạy thử nghiệm hoán vị nếu tất cả những gì bạn đang làm là kiểm tra t. Thử nghiệm hoán vị là một thử nghiệm chính xác, không phụ thuộc vào các giả định phân phối. Quan trọng nhất, các thử nghiệm hoán vị và thử nghiệm t sẽ dẫn đến kết quả giống hệt nhau nếu các giả định của thử nghiệm tham số được đáp ứng . Do đó, thước đo độ mạnh mà bạn tìm kiếm có thể là 1 - sự khác biệt giữa giá trị p hoán vị và kiểm tra t, trong đó điểm 1 ngụ ý độ mạnh hoàn hảo và 0 ngụ ý không mạnh mẽ chút nào.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.