Tôi không biết gì về nghiên cứu biểu hiện gen nhưng tôi thực sự có hứng thú với nhiều suy luận nên tôi sẽ mạo hiểm trả lời về phần này của câu hỏi.
Cá nhân, tôi sẽ không tiếp cận vấn đề theo cách đó. Tôi sẽ điều chỉnh mức độ lỗi trong các nghiên cứu ban đầu, tính toán sự chồng chéo mới và để lại thử nghiệm ở cuối. Nếu số lượng gen biểu hiện khác nhau (và bất kỳ kết quả nào khác mà bạn đang sử dụng) đã dựa trên các xét nghiệm điều chỉnh, tôi sẽ lập luận rằng bạn không cần phải làm gì cả.
Nếu bạn không thể quay lại dữ liệu gốc và thực sự muốn điều chỉnh giá trị p , bạn thực sự có thể nhân nó với số lượng thử nghiệm nhưng tôi không hiểu tại sao nó phải liên quan đến kích thước của list2. Sẽ có ý nghĩa hơn khi điều chỉnh tổng số xét nghiệm được thực hiện trong cả hai nghiên cứu (tức là gấp hai lần dân số). Điều này sẽ được tàn bạo, mặc dù.
Để điều chỉnh giá trị p trong R, bạn có thể sử dụng p.adjust(p)
, trong đó p
một vectơ giá trị p .
p.adjust(p, method="bonferroni") # Bonferroni method, simple multiplication
p.adjust(p, method="holm") # Holm-Bonferroni method, more powerful than Bonferroni
p.adjust(p, method="BH") # Benjamini-Hochberg
Như đã nêu trong tệp trợ giúp, không có lý do gì để không sử dụng Holm-Bonferroni so với Bonferroni vì nó cũng cung cấp khả năng kiểm soát mạnh mẽ tỷ lệ lỗi gia đình trong mọi trường hợp nhưng mạnh hơn. Stewamini-Hochberg kiểm soát tỷ lệ phát hiện sai, đây là một tiêu chí ít nghiêm ngặt hơn.
Chỉnh sửa sau khi bình luận dưới đây:
Càng nghĩ nhiều về vấn đề, tôi càng nghĩ rằng một sự điều chỉnh cho nhiều so sánh là không cần thiết và không phù hợp trong tình huống này. Đây là nơi mà khái niệm của một gia đình người Hồi giáo đã đưa ra các giả thuyết. Thử nghiệm cuối cùng của bạn không hoàn toàn so sánh với tất cả các thử nghiệm trước đó, không có rủi ro nào về việc tận dụng cơ hội của những kết quả quan trọng. kiểm tra sở thích và việc sử dụng mức lỗi thông thường cho trường hợp này là hợp pháp.
Ngay cả khi bạn sửa chữa tích cực cho nhiều thử nghiệm được thực hiện trước đó, bạn vẫn sẽ không trực tiếp giải quyết mối quan tâm chính, đó là thực tế là một số gen trong cả hai danh sách có thể đã được phát hiện một cách khác biệt như thể hiện khác biệt. Các kết quả kiểm tra trước đó vẫn còn độc lập và nếu bạn muốn diễn giải các kết quả này trong khi kiểm soát tỷ lệ lỗi thông minh của gia đình, bạn vẫn cần phải sửa tất cả chúng.
Nhưng nếu giả thuyết null thực sự đúng với tất cả các gen, bất kỳ kết quả quan trọng nào cũng sẽ là dương tính giả và bạn sẽ không mong đợi cùng một gen sẽ được gắn cờ trong mẫu tiếp theo. Do đó, sự chồng chéo giữa cả hai danh sách sẽ chỉ xảy ra tình cờ và đây chính xác là những gì kiểm tra dựa trên phân phối siêu bội đang kiểm tra. Vì vậy, ngay cả khi danh sách các gen là rác hoàn toàn, kết quả của thử nghiệm cuối cùng đó vẫn an toàn. Theo trực giác, có vẻ như bất cứ điều gì ở giữa (một sự pha trộn giữa các giả thuyết đúng và sai) cũng sẽ ổn.
Có thể ai đó có nhiều kinh nghiệm hơn trong lĩnh vực này có thể cân nhắc nhưng tôi nghĩ rằng việc điều chỉnh sẽ chỉ cần thiết nếu bạn muốn so sánh tổng số gen được phát hiện hoặc tìm ra gen nào được biểu hiện khác biệt, tức là nếu bạn muốn giải thích hàng ngàn cá thể các xét nghiệm được thực hiện trong mỗi nghiên cứu.