Thử nghiệm t của Welch cho giá trị p tệ hơn cho sự khác biệt lớn hơn


8

Dưới đây là bốn bộ số khác nhau:

A = {95,47, 87,90, 99,00}
B = {79,2, 75,3, 66,3}
C = {38,4, 40,4, 32,8}
D = {1.8, 1.2, 1.1}

Sử dụng phép thử t hai mẫu mà không giả sử phương sai bằng nhau, tôi so sánh B, C và D với A và nhận các giá trị p sau:

0,015827 (A so với B)
0,000283 (A so với C)
0,001190 (A so với D)

Tôi thấy lạ là giá trị p từ xét nghiệm AD kém hơn so với thử nghiệm AC: sự khác biệt giữa các phương tiện rõ ràng lớn hơn nhiều và phương sai của D thấp hơn nhiều so với phương sai của C. Trực giác (ít nhất là theo trực giác của tôi ), cả hai thực tế này sẽ khiến giá trị p thấp hơn.

Ai đó có thể giải thích nếu đây là hành vi mong muốn hoặc mong đợi của thử nghiệm t hoặc liệu nó có phải làm nhiều hơn với tập dữ liệu cụ thể của tôi không (có lẽ kích thước mẫu cực thấp?). Là kiểm tra t không phù hợp cho tập dữ liệu cụ thể này?

Từ quan điểm tính toán thuần túy, lý do cho giá trị p tệ hơn dường như là mức độ tự do, trong so sánh AD là 2.018 trong khi đó là 3.566 trong so sánh AC. Nhưng chắc chắn, nếu bạn chỉ nhìn thấy những con số đó, bạn sẽ không nghĩ rằng có bằng chứng mạnh mẽ hơn để bác bỏ giả thuyết khống trong trường hợp AD so với AC?

Một số có thể gợi ý rằng đây không phải là vấn đề ở đây vì tất cả các giá trị p đều khá thấp. Vấn đề của tôi là 3 bài kiểm tra này là một phần của bộ bài kiểm tra mà tôi đang thực hiện. Sau khi sửa chữa cho nhiều thử nghiệm, so sánh AD không thực hiện cắt giảm, trong khi so sánh AC thì không. Hãy tưởng tượng vẽ các số đó (giả sử các ô có các thanh lỗi như các nhà sinh học thường làm) và cố gắng giải thích tại sao C khác biệt đáng kể so với A nhưng D không ... tốt, tôi không thể.

Cập nhật: tại sao điều này thực sự quan trọng

Hãy để tôi làm rõ tại sao quan sát này có thể có tác động lớn trong việc diễn giải các nghiên cứu trong quá khứ. Trong sinh học, tôi đã thấy thử nghiệm t được áp dụng cho các cỡ mẫu nhỏ trên quy mô lớn (nghĩ rằng biểu hiện gen khác biệt của hàng trăm hoặc hàng ngàn gen, hoặc tác dụng của nhiều loại thuốc khác nhau trên một dòng tế bào, chỉ sử dụng 3-5 lần lặp ). Quy trình thông thường là thực hiện nhiều xét nghiệm t (một cho mỗi gen hoặc thuốc) sau đó là điều chỉnh nhiều xét nghiệm, thường là FDR. Với các quan sát trên về hành vi kiểm tra t của Welch, điều này có nghĩa là một số trường hợp tốt nhất đang được lọc ra một cách có hệ thống. Mặc dù hầu hết mọi người sẽ nhìn vào dữ liệu thực tế để so sánh ở đầu danh sách của họ (những người có giá trị p tốt nhất), tôi không biết ai sẽ xem qua danh sách tất cả các so sánh mà giả thuyết null không được đưa ra ' t từ chối.


1
Hãy nhớ rằng, công thức tiếng Wales là một xấp xỉ. Các nghiên cứu mô phỏng chỉ ra rằng "hiệu chỉnh tiếng Wales trở nên quá bảo thủ khi kích thước mẫu rất không bằng nhau", đó là trường hợp so sánh với AD.
whuber

1
Các cỡ mẫu bằng nhau trong trường hợp này @whuber. Ý của bạn là phương sai mẫu?
ALiX

1
Cảm ơn, ALiX, bạn đã đúng. Đối với trường hợp phương sai rất bất bình đẳng và cỡ mẫu bằng nhau, tôi nên trích dẫn một kết luận khác (thậm chí còn tệ hơn!): "... Lỗi loại I ... bị thổi phồng ở nhiều mức độ khác nhau, do đó các xét nghiệm không hợp lệ và không nên được sử dụng. "
whuber

Tôi tự hỏi nếu dữ liệu của bạn được đọc đếm từ rna-seq? Nếu vậy, tôi có thể đề nghị bạn xem xét về DESeq (gói R / Bioconductor) không? genomebiology.com/2010/11/10/R106
bdemomon

Câu trả lời:


3

Vâng, đó là mức độ tự do. Số liệu thống kê t tăng khi chúng ta so sánh các nhóm B, C, D với A; các tử số trở nên lớn hơn và mẫu số trở nên nhỏ hơn.

Tại sao cách tiếp cận của bạn không "làm việc"? Chà, xấp xỉ Satterthwaite cho mức độ tự do, và phân phối tham chiếu là (như tên cho thấy!) Chỉ là một xấp xỉ. Nó sẽ hoạt động tốt nếu bạn có nhiều mẫu trong mỗi nhóm và không có dữ liệu quá nặng; 3 quan sát cho mỗi nhóm thực sự rất nhỏ cho hầu hết các mục đích. (Ngoài ra, mặc dù giá trị p rất hữu ích để thực hiện các thử nghiệm, nhưng chúng không đo lường bằng chứng và không ước tính các tham số với các diễn giải trực tiếp về mặt dữ liệu.)

Nếu bạn thực sự muốn tìm ra sự phân phối chính xác của thống kê kiểm tra - và giá trị p được hiệu chỉnh tốt hơn - có những phương pháp được trích dẫn ở đây có thể được sử dụng. Tuy nhiên, họ dựa vào giả định Normality, một giả định mà bạn không có khả năng đáng để kiểm tra, ở đây.


Nhiều mẫu hơn không giúp được gì: Tôi sẽ nhận được giá trị p thấp hơn, nhưng thứ tự của giá trị p sẽ giống nhau. Xem cập nhật của tôi tại sao điều này có thể quan trọng trong một số ứng dụng.
ALiX

Tôi đồng ý hiện tượng này có thể quan trọng, nhưng nhiều mẫu hơn cho mỗi nhóm sẽ giúp ích; không có triệu chứng, thử nghiệm cho giá trị p chính xác. Tuy nhiên, với các nhóm nhỏ, có các phương pháp chính xác (ví dụ SAM, bởi Tibshirani) có được giá trị thống kê của chúng từ phân tích dựa trên hoán vị.
khách

Nếu có sự khác biệt lớn giữa phương sai của hai nhóm, kích thước mẫu tăng sẽ không giúp theo nghĩa là thứ tự của các giá trị p sẽ sai (nghĩa là AC vẫn sẽ có giá trị p thấp hơn AD). SAM không thể được sử dụng nếu bạn đang kiểm tra tác dụng của nhiều hợp chất ở các nồng độ khác nhau (đây phải là một ứng dụng lý tưởng của thử nghiệm t). Thử nghiệm t của Welch đối với tôi về cơ bản là thiếu sót : mục đích của nó là xử lý các phương sai không bằng nhau, nhưng phương sai càng bất bình đẳng thì nó càng tệ (mức độ xấp xỉ tự do bị phá vỡ).
ALiX

1
Nếu bạn muốn so sánh cặp của các mức nồng độ khác nhau và đang kiểm tra mức độ biểu hiện gen trên nhiều gen, thì SAM có thể được sử dụng cho mỗi so sánh theo cặp và sẽ cung cấp cho bạn các tuyên bố trung thực về ý nghĩa thống kê cho mỗi so sánh. Bạn có thể sau đó, nếu bạn muốn, sử dụng chúng để xếp hạng các so sánh. Ngoài ra, bài kiểm tra của Welch không hoàn toàn sai sót. Chắc chắn, nó chỉ không hoạt động tốt với n = 3, nhưng đây không phải là điều mà nó tuyên bố sẽ làm. Một chiếc bơm xe đạp là vô vọng để gọt khoai tây, nhưng điều này không có nghĩa là bạn có thể kết luận nó là "thiếu sót cơ bản".
khách

1
Thứ tự có khả năng sai bất kể bạn làm gì, vì vậy điều đó không có ích. Nếu bạn muốn đặt hàng theo ý nghĩa thống kê của sự khác biệt trung bình giữa các nhóm trong dữ liệu thực tế của bạn và có các mẫu có kích thước vừa phải, giá trị p từ thử nghiệm của Welch sẽ hoạt động tốt. Với kích thước mẫu nhỏ, không, nó sẽ không hoạt động tốt, nhưng do nó được phát triển như một xấp xỉ và nó hoạt động tốt hơn nhiều đối thủ cạnh tranh, điều này không gây ra sự chỉ trích.
khách

1

Có khá nhiều câu hỏi này và tôi khá chắc chắn rằng một số câu hỏi nằm ngoài tầm hiểu biết của tôi. Do đó, trong khi tôi có một giải pháp khả thi cho 'vấn đề' và một số suy đoán, bạn có thể cần kiểm tra 'hoạt động' của tôi.

Bạn quan tâm đến bằng chứng. Fisher đề xuất sử dụng giá trị p làm bằng chứng nhưng bằng chứng trong bộ dữ liệu chống lại giả thuyết null dễ dàng hơn (hợp lý?) Được hiển thị với hàm khả năng hơn giá trị p. Tuy nhiên, một giá trị p cực đoan hơn là bằng chứng mạnh mẽ hơn.

Đây là giải pháp của tôi: Đừng sử dụng bài kiểm tra t của Welch, mà thay vào đó hãy chuyển đổi dữ liệu bằng biến đổi căn bậc hai để cân bằng các phương sai và sau đó sử dụng bài kiểm tra t của Học sinh tiêu chuẩn. Biến đổi đó hoạt động tốt trên dữ liệu của bạn và là một trong những cách tiếp cận tiêu chuẩn cho dữ liệu không đồng nhất. Thứ tự của các giá trị p hiện khớp với trực giác của bạn và sẽ phục vụ cho bằng chứng.

Nếu bạn đang sử dụng giá trị p làm bằng chứng thay vì cố gắng bảo vệ chống lại các lỗi dương tính giả dài hạn thì theo tôi, các đối số điều chỉnh giá trị p cho nhiều so sánh trở nên khá yếu, theo ý kiến ​​của tôi.

Bây giờ, phần đầu cơ. Theo tôi hiểu, thử nghiệm t của Welch là một giải pháp cho vấn đề của Fisher-Behlings (thử nghiệm có nghĩa là dữ liệu có phương sai không bằng nhau), nhưng đó là một giải pháp mà Fisher không hài lòng. Có lẽ đó là một Neyman-Pearsonian trong triết lý cơ bản của nó. Dù sao, lượng bằng chứng về giá trị ap từ phép thử t phụ thuộc vào giá trị p VÀ trên cỡ mẫu. (Điều đó không được công nhận rộng rãi, có lẽ vì bằng chứng về giá trị ap từ phép thử z không phụ thuộc vào cỡ mẫu.) Tôi nghi ngờ rằng phép thử của Welch làm tăng tính chất chứng minh của giá trị p bằng cách điều chỉnh mức độ tự do.


Cảm ơn đã chỉ ra chuyển đổi căn bậc hai như là một giải pháp. Tôi sẽ xem xét nó.
ALiX

(tiếp theo) Tôi không thực sự hiểu nhận xét của bạn về giá trị p và nhiều thử nghiệm. Có mâu thuẫn giữa việc sử dụng giá trị p làm bằng chứng và điều chỉnh cho nhiều thử nghiệm không? Và nhận xét cuối cùng của bạn về bằng chứng trong giá trị p từ thử nghiệm t tùy thuộc vào kích thước mẫu: không phải là mức độ tự do điều chỉnh cho kích thước mẫu? Và bên cạnh đó, làm thế nào điều này có thể tác động đến tập dữ liệu cụ thể này khi kích thước mẫu giống nhau cho tất cả các so sánh?
ALiX

@AliX Bằng chứng chống lại giả thuyết null được định lượng tốt nhất bởi hàm khả năng. Đối với phép thử t, chiều cao của hàm khả năng tương ứng với một giá trị p cụ thể phụ thuộc vào kích thước mẫu. Ngược lại, với phép thử z, chiều cao của hàm khả năng không bị ảnh hưởng bởi cỡ mẫu. NẾU bạn quan tâm đến bằng chứng thì tôi khuyên bạn nên xem Bằng chứng thống kê: Nghịch lý khả năng của Richard Royall.
Michael Lew

1

Sau khi đào bới xung quanh, tôi nghĩ phán quyết cuối cùng của tôi diễn ra như thế này:

Để đơn giản hóa cuộc thảo luận, chúng ta chỉ xem xét trường hợp khi kích thước mẫu bằng nhau. Trong trường hợp đó, gần đúng với mức độ tự do có thể được viết là

(s12n+s22n)2s14n2(n1)+s24n2(n1)=...=(n1)(1+2s12s22s14+s24),

trong đó và là phương sai mẫu và là cỡ mẫu. Do đó, mức độ tự do là khi phương sai mẫu bằng nhau và cách tiếp cận khi kích thước mẫu trở nên không bằng nhau. Điều này có nghĩa là mức độ tự do sẽ khác nhau theo hệ số gần 2 chỉ dựa trên phương sai mẫu. Ngay cả đối với các cỡ mẫu có kích thước hợp lý (giả sử 10 hoặc 20), tình huống được minh họa trong bài chính có thể dễ dàng xảy ra. s 2 2 n ( n - 1 ) 2 ( n - 1 )s12s22n(n1)2(n1)

Khi nhiều thử nghiệm t được thực hiện, việc sắp xếp các so sánh theo giá trị p có thể dễ dàng dẫn đến các so sánh tốt nhất không đưa nó lên đầu danh sách hoặc bị loại trừ sau khi điều chỉnh cho nhiều thử nghiệm.

Ý kiến ​​cá nhân của tôi là đây là một lỗ hổng cơ bản trong bài kiểm tra t của Welch vì nó được thiết kế để so sánh giữa các mẫu có phương sai không bằng nhau, nhưng các phương sai càng trở nên bất bình đẳng, bạn càng mất sức (theo nghĩa là thứ tự của p -giá trị sẽ sai).

Giải pháp duy nhất tôi có thể nghĩ đến là sử dụng một số thử nghiệm dựa trên hoán vị thay thế hoặc chuyển đổi dữ liệu để các phương sai trong các thử nghiệm của bạn không quá xa nhau.


1
Tôi không nghĩ nó nên được gọi là "lỗ hổng cơ bản." Mọi thứ đều liên quan đến một cái gì đó. Thử nghiệm t của Welch đã xuất hiện để đối phó với lỗi loại I bị đánh giá thấp về kiểm tra sai lệch được kiểm tra, do đó, đây là một cách cải tiến để kiểm soát lỗi loại I "so với" kiểm tra phương sai được kiểm tra. Nhưng khi nói đến MCP và giá trị p rất thấp, nó chắc chắn có vấn đề.
KH Kim

2
Làm thế nào bạn sẽ tổ chức hoán vị của bạn? Nếu các mẫu thực sự đến từ các quần thể khác nhau về phương sai thì ngay cả dưới giá trị null, các nhãn nhóm không tùy ý - ở mức , nếu một giá trị gần với nghĩa là nhiều khả năng nó đến từ nhóm có phương sai nhỏ hơn. Vì vậy, bạn dường như không thể đưa ra lập luận rằng bạn chỉ có thể hoán vị các nhãn dưới null. n
Glen_b -Reinstate Monica

0

Theo như tôi biết, tôi đã nghe thử nghiệm t của Welch sử dụng phép tính gần đúng Satterthwaite

được xác minh cho kiểm tra ý nghĩa 0,05.

Có nghĩa là khi P (kết hợp tuyến tính của distribuiton chi bình phương> c) = 0,05,

chúng ta có thể lấy gần đúng c.

Vì vậy, tôi nghĩ giá trị p khá đáng tin cậy khoảng 0,05,

Và rõ ràng là không phải vậy khi nó nhận được ít hơn 0,05.

p.valuep2[m]=t.test(a,d,var.eqaul=F)

Bạn có thể thấy các giá trị p trở nên chính xác hơn khi nó đạt tới 0,05 ...

Vì vậy, chúng ta không được sử dụng các giá trị p nhỏ hơn 0,05 khi sử dụng phép thử t của Welch.

Nếu nó được sử dụng, tôi nghĩ chúng ta nên viết một bài báo về nó.

Nhưng dù sao, tôi hiện đang viết về "Thống kê" và chủ đề này rất hấp dẫn.

Tôi hy vọng sử dụng dữ liệu của bạn viết cuốn sách với sự cho phép của bạn.

Bạn có thể cho tôi sử dụng dữ liệu của bạn?

Và tôi sẽ biết ơn nếu bạn có thể cho biết nguồn dữ liệu và bối cảnh từ đó

Họ đã đến!


Tôi đã làm một số nghiên cứu về điều này và tôi thấy sự gần đúng như thế này. Bạn muốn biết phân phối của một chi_1 ^ 2 (df1) + b chi_2 ^ 2 (df2) nhưng phân phối chính xác rất phức tạp nên phép tính gần đúng bắt đầu. Và hãy để chi_1 ^ 2 + b chi_2 ^ 2 = c chi_3 ^ 2 (df3) và đặt df3 sao cho trung bình và khoảnh khắc thứ hai của hai phân phối là như nhau. vì vậy p = 0,5 là chính xác nhưng khi nó đi càng xa nó thì sự khác biệt b2 chính xác p và p gần đúng sẽ lớn hơn. Tôi nhớ khi Welch được thực hiện, R luôn in "giá trị p không chính xác" Tôi đoán
KH Kim

Tôi chỉ phân tích dữ liệu và như vậy, dữ liệu không thực sự thuộc về tôi. Nhưng một khi dữ liệu được công bố (sẽ sớm) bạn sẽ có thể sử dụng nó theo ý muốn.
ALiX
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.