Kết hợp giá trị p từ các thử nghiệm thống kê khác nhau được áp dụng trên cùng một dữ liệu


8

Mặc dù tiêu đề của câu hỏi có vẻ tầm thường, tôi muốn giải thích rằng nó không tầm thường theo nghĩa nó khác với câu hỏi về việc áp dụng cùng một bài kiểm tra thống kê trong các bộ dữ liệu tương tự để kiểm tra giả thuyết tổng thể null (phân tích tổng hợp, ví dụ: sử dụng phương pháp của Fisher để kết hợp các giá trị p). Những gì tôi đang tìm kiếm, là một phương thức (nếu nó tồn tại và nếu câu hỏi có giá trị trong thuật ngữ thống kê) sẽ kết hợp các giá trị p từ hai thử nghiệm thống kê khác nhau (ví dụ: kiểm tra t và kiểm tra u, ngay cả khi một tham số và cái kia thì không), được áp dụng để so sánh trung tâm của hai lần lấy mẫu từ hai quần thể. Cho đến nay tôi đã tìm kiếm rất nhiều trên web mà không có câu trả lời rõ ràng. Câu trả lời tốt nhất tôi có thể tìm thấy được dựa trên các khái niệm lý thuyết trò chơi của David Bickel ( http://arxiv.org/pdf/1111.6174.pdf ).

Một giải pháp rất đơn giản sẽ là một kế hoạch bỏ phiếu. Giả sử rằng tôi có hai vectơ quan sát A=[a1,a2,...,an]B=[b1,b2,...,bn]và tôi muốn áp dụng một số thống kê giống như t (kiểm tra t, kiểm tra u, thậm chí ANOVA 1 chiều) để kiểm tra giả thuyết rằng các trung tâm (phương tiện, trung bình, v.v.) của hai phân phối dưới mức đều bằng với giả thuyết rằng chúng không, ở mức ý nghĩa 0,05. Giả sử tôi chạy 5 bài kiểm tra. Sẽ là hợp pháp khi nói rằng có đủ bằng chứng để từ chối phân phối null nếu tôi có giá trị p <0,05 trong 3 trên 5 thử nghiệm?

Liệu một giải pháp khác là sử dụng luật tổng xác suất hay điều này là hoàn toàn sai? Ví dụ: giả sử A là sự kiện phân phối null bị từ chối. Sau đó, sử dụng 3 bài kiểm tra, T1 , T2 , T3 (nghĩa là P(T1)=P(T2)=P(T3)=1/3 ), sẽ là một giá trị có thể cho P(A) được P(A)=P(A|T1)P(T1)+P(A|T2)P(T2)+P(A|T3)P(T3) , trong đóP(A|Ti) là xác suất phân phối null bị từ chối theo thử nghiệmTi .

Tôi xin lỗi nếu câu trả lời là rõ ràng hoặc câu hỏi quá ngu ngốc


Những gì hiện đại diện cho pháp luật mà tổng tính toán xác suất? P(Ti)
Glen_b -Reinstate Monica

Tôi xin lỗi vì tôi không thể đưa ra lời giải thích toán học về những gì bạn đang tìm kiếm, nhưng tôi tình cờ biết rằng một phần mềm chúng tôi phát triển trong phòng thí nghiệm của chúng tôi đã triển khai tính năng này: kiểm tra ở đây về cách thực hiện: gitools.org/documentation/UserGuide_Combinating .html và đây là cách thực hiện: github.com/gitools/gitools/blob/ . Tôi sẽ kiểm tra lại khi tôi tìm thấy công thức trong bài báo gốc.
dmeu

@Glen_b P (Ti) đại diện cho "xác suất" của việc sử dụng kiểm tra thống kê Ti. Tôi biết rằng đây không chính xác là một xác suất theo cách nghiêm ngặt. Đó đúng là một trọng số nói rằng tôi đã sử dụng n bài kiểm tra cho cùng một tập dữ liệu.
Panos

@dmeu Cảm ơn! Tuy nhiên tôi nghĩ rằng phần mềm của bạn trả lời phần tầm thường (xem ở trên, kết hợp nhiều bộ dữ liệu bằng một thử nghiệm duy nhất) chứ không phải câu hỏi của tôi. Xin lỗi nếu đây không phải là trường hợp.
Panos

@Panos bạn có thể đúng. Tôi đọc khác nhau như "hai bài kiểm tra độc lập (khác nhau) cùng loại". Xin lỗi để có được hy vọng của bạn lên.
dmeu

Câu trả lời:


5

Sử dụng nhiều hiệu chỉnh thử nghiệm được Corone ủng hộ là được, nhưng nó sẽ khiến bạn mất hàng núi sức mạnh vì giá trị p của bạn thường sẽ tương quan tốt, thậm chí sử dụng hiệu chỉnh Hommel.

p1,p2,,pnp *p=min(p1,,pn)p

Bạn cần tính giá trị cho giá trị quan sát của (gọi nó là ). Đối với điều này, bạn có thể mô phỏng, giả sử, 100 000 bộ dữ liệu theo các giả thuyết null và với mỗi bộ dữ liệu đó, hãy tính một . Điều này cung cấp cho bạn một phân phối theo kinh nghiệm của theo giả thuyết null. Giá trị của bạn là tỷ lệ của các giá trị mô phỏng là .p p o b s p p p < p o b spppobsppp<pobs

Làm thế nào để bạn mô phỏng các tập dữ liệu theo giả thuyết null? Trong trường hợp của bạn, nếu tôi đoán tốt, các trường hợp và điều khiển và dữ liệu RNS-seq để ước tính mức biểu thức. Để mô phỏng một tập dữ liệu dưới giá trị null, thông thường chỉ cần hoán vị ngẫu nhiên trạng thái trường hợp / điều khiển.


2
+1 Có, đây là một trong những cách tiếp cận mà tôi muốn nói với "nhiều việc hơn". Tuy nhiên, cần lưu ý rằng không phải ai cũng cho rằng lấy giá trị p nhỏ nhất là cách tiếp cận tốt nhất ở đây. 99 giá trị p gần 0,5 và một giá trị 0,02 rất khác với 99 giá trị p gần với 0,02. Khi bạn mở cánh cửa để lấy lại giá trị null, thì sẽ đáng để xem xét các phương pháp "biểu quyết", vì tính nhất quán giữa các thử nghiệm có thể quan trọng (hơn) là tạo ra giá trị p thấp trong một thử nghiệm.
Korone

Đúng, bạn đúng. Tuy nhiên, đối với hầu hết các bài kiểm tra liên kết, tôi nghĩ rằng việc thực hiện min là một ý tưởng tốt. Với nhiều công việc hơn, '' thử nghiệm mạnh mẽ hiệu quả maximin '' có thể được xây dựng từ các thử nghiệm khác nhau, nhưng điều này thực sự đòi hỏi phải thực hiện các thử nghiệm ...
Elvis

1
vâng, không đề cập đến điều sẽ trở nên thực sự nhiều lông / thú vị / vui vẻ nếu chúng ta bắt đầu lo lắng về thực tế rằng một số bài kiểm tra sẽ mạnh mẽ hơn bài kiểm tra khác - trong một thế giới lý tưởng mà bạn muốn nghe hầu hết các bài kiểm tra mạnh mẽ nhất ...
Korone

@Elvis Một cái gì đó như thế này là sự thay thế gần nhất cho một cái gì đó liên quan đến luật tổng xác suất (đã chứng minh là sai) mà tôi đã nghĩ đến. Tôi đã cố gắng nghĩ về một quy trình lấy mẫu lại nhưng bạn đã chính thức hóa nó một cách hoàn hảo! Sức mạnh tính toán sẽ không phải là một vấn đề tại thời điểm này (may mắn thay!). Đối với việc bỏ phiếu, người ta có thể kết hợp một cái gì đó giống như phương pháp của Whitlock để phân tích tổng hợp ( ncbi.nlm.nih.gov/pmc/articles/PMC3135688 ) nhưng cân nhắc kiểm tra thống kê. Thông tin như vậy có thể được lấy từ các ấn phẩm tương đối (ví dụ: biomedcentral.com/1471-2105/14/91 ).
Panos

Vâng! bạn có thể lấy bất kỳ hàm của các giá trị , miễn là nó không giảm đối với mỗi . p p ip=f(p1,,pn)ppi
Elvis

4

Loại điều này thường sẽ được bao phủ bởi nhiều thử nghiệm giả thuyết, mặc dù nó không hoàn toàn là một tình huống điển hình.

Bạn đã đúng khi lưu ý rằng điều này khác với phân tích tổng hợp, ở chỗ bạn đang sử dụng cùng một dữ liệu cho nhiều thử nghiệm, nhưng tình huống đó vẫn được bao phủ bởi thử nghiệm đa giả thuyết. Điều hơi kỳ lạ ở đây là gần như cùng một giả thuyết mà bạn đang thử nghiệm nhiều lần, và sau đó bạn muốn giả thuyết null toàn cầu là giao điểm của tất cả những điều đó - có lẽ đáng để thắc mắc tại sao bạn cảm thấy cần phải làm điều này , nhưng có thể có những lý do chính đáng.

Nếu bạn đang thực hiện một bộ thử nghiệm dễ phân tích hơn, người ta có thể đi xuống tuyến đường thử nghiệm Liên minh, nhưng tôi không nghĩ rằng sẽ đưa bạn đến bất cứ nơi nào, vì vậy tôi khuyên bạn nên sử dụng phương pháp điều chỉnh bội số.

Tôi khuyên bạn nên bắt đầu bằng cách xem Wikipedia nói gì về chủ đề này, nhưng cố gắng đừng quá sa lầy: http://en.wikipedia.org/wiki/Mult Môn_comparisons

Vì vậy, bạn cần sử dụng hiệu chỉnh bội số và loại trừ Giao lộ, đại khái là các tùy chọn của bạn như sau

  • Bonferonni - Bị chi phối nghiêm ngặt bởi Holm-Bonferroni, chỉ quan tâm đến lịch sử
  • Holm-Bonferroni - Sẽ làm việc cho bạn, nhưng sẽ tiêu tốn năng lượng của bạn (có thể rất nhiều trong trường hợp của bạn)
  • Sidak - mạnh hơn BH, nhưng bạn không thể sử dụng điều này vì giá trị p của bạn sẽ tương quan
  • Hommel - mạnh hơn BH và bạn sẽ ổn, vì giá trị p của bạn chắc chắn có mối tương quan tích cực

Vấn đề lớn nhất của bạn là bạn rất có thể nhận được các giá trị p rất giống nhau trong các thử nghiệm khác nhau của mình. Hommel không nên trừng phạt bạn quá nhiều vì điều này.

Ví dụ: bạn có thể điều chỉnh giá trị p trong R bằng cách sử dụng p.adjust

p = c(0.03, 0.034, 0.041)
p.adjust(p, method = "bonferroni")
p.adjust(p, method = "holm")
p.adjust(p, method = "hommel")

> p.adjust(p, method = "bonferroni")
[1] 0.090 0.102 0.123
> p.adjust(p, method = "holm")
[1] 0.09 0.09 0.09
> p.adjust(p, method = "hommel")
[1] 0.041 0.041 0.041

Các phương thức này đều kiểm soát Tỷ lệ lỗi gia đình khôn ngoan , có nghĩa là nếu bạn kiểm tra lần lượt từng giá trị p dựa trên ngưỡng vượt qua ngưỡng của bạn, thì xác suất 1 lỗi trở lên vẫn được kiểm soát tại . Điều này có nghĩa là bạn có thể từ chối giả thuyết toàn cầu nếu bạn từ chối một hoặc nhiều giả thuyết phụ và kích thước thử nghiệm của bạn vẫn được kiểm soát tại .alphaαα

Khi tôi bắt đầu ngay từ đầu, đây sẽ không phải là cuộc tấn công mạnh mẽ nhất bạn có thể làm, nhưng bất cứ điều gì tinh vi hơn sẽ đòi hỏi nhiều công việc hơn.


Tại sao điều này kiểm soátα

Giả thuyết null toàn cầu là tất cả các giả thuyết null con là đúng.

Đặt kết quả của một thử nghiệm duy nhất là lấy giá trị 1 nếu null bị từ chối, 0 nếu không.Xi

Vì chắc chắn có mối tương quan tích cực, chúng ta có thể sử dụng Hommel để kiểm soát FWER.Xi

Kiểm soát này có nghĩa là xác suất một hoặc nhiều thử nghiệm từ chối sai được kiểm soát tạiα

Do đó, P((Xi)>0)α

Do đó, nếu bạn từ chối giả thuyết toàn cầu nếu một hoặc nhiều giả thuyết con bị từ chối, quy mô của bài kiểm tra toàn cầu làα


Cảm ơn bạn vì hồi ứng nhanh chóng! Ý tưởng chính là kết hợp một số thuật toán thống kê phát hiện biểu hiện gen khác biệt bằng cách sử dụng dữ liệu RNA-Seq, với cách thức phức tạp hơn so với nhân các giá trị p dù sao không đúng. Những gì bạn đề nghị tương tự như những gì tôi tìm thấy trong researchgate.net/publication/... Tuy nhiên, tôi tự hỏi, nếu chương trình bỏ phiếu hoặc pháp luật của tổng số khả năng có bất kỳ ý nghĩa trong bối cảnh này.
Panos

@Panos trong trường hợp đó, sau đó, tôi chắc chắn sẽ đề xuất một cái gì đó như thế này. Nhược điểm là kiểm soát là bảo thủ, bởi vì chúng tôi đang kiểm soát P (1 hoặc nhiều lựa chọn là sai) thay vì P (Tất cả được chọn là sai), nhưng vì thuật toán của bạn có thể tương quan tích cực, nên sự khác biệt sẽ không xảy ra là rất lớn.
Korone

Chưa kể, người ta cũng không nên kết hôn với một ngưỡng kích thước cụ thể - như thường nói không có gì đặc biệt về 0,05 hoặc 0,01.
Korone

@Panos nếu bạn định hướng ra các xác suất chính xác cho sơ đồ bỏ phiếu của mình, thì cuối cùng bạn sẽ lấy lại được bài kiểm tra đa bội khác nhau mà tôi đã đề xuất, chính xác tùy thuộc vào giả định bạn đưa ra trên đường đi.
Korone

1
@Benjamin trong khi tôi cũng ủng hộ việc đọc về nó (điều này rất quan trọng!), Tôi không nghĩ rằng nó sẽ phù hợp ở đây. FDR đang kiểm soát tỷ lệ dự kiến dương tính giả từ một số lựa chọn. Vì tất cả các thử nghiệm của Panos đang cố gắng thông báo cho anh ta về cùng một giả thuyết toàn cầu, nên việc kiểm soát tỷ lệ dự kiến ​​của thử nghiệm sai sẽ không có ý nghĩa gì - đặc biệt là khi bạn có mối tương quan. Anh ta không chọn giữa nhiều câu hỏi khác nhau, nhưng thử nhiều cách để trả lời cùng một câu hỏi.
Korone
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.