Hy vọng ai đó trên các diễn đàn này có thể giúp tôi giải quyết vấn đề cơ bản này trong các nghiên cứu biểu hiện gen.
Tôi đã thực hiện trình tự sâu của một thí nghiệm và mô điều khiển. Sau đó tôi đã thu được các giá trị làm giàu gấp của các gen trong mẫu thử nghiệm vượt quá tầm kiểm soát. Bộ gen tham chiếu có ~ 15.000 gen. 3.000 trong số 15.000 gen được làm giàu trên mức giới hạn nhất định trong mẫu quan tâm của tôi so với kiểm soát.
Vậy: A = tổng số gen = 15.000 B = RNA-Seq làm giàu tiểu quần thể = 3.000.
Trong một thử nghiệm chip ChIP trước đây, tôi đã tìm thấy 400 gen được làm giàu bằng chip ChIP. Trong số 400 gen ChIP-chip, 100 gen nằm trong nhóm 3.000 bản sao RNA-Seq được làm giàu.
Vậy: C = tổng số # gen được làm giàu bằng chip ChIP = 400.
Xác suất 100 gen ChIP-chip của tôi sẽ được làm giàu bằng RNA-Seq chỉ bằng cơ hội là bao nhiêu? Nói cách khác, cách khôn ngoan nhất để tính toán nếu sự trùng lặp quan sát được của tôi giữa B và C (100 gen) là tốt hơn so với chỉ có cơ hội? Từ những gì tôi đã đọc cho đến nay, cách tốt nhất để kiểm tra điều này là sử dụng phân phối siêu bội.
Tôi đã sử dụng một máy tính trực tuyến (stattrek.com) để thiết lập thử nghiệm phân phối siêu bội với các tham số sau: - kích thước pop = 15.000 - # thành công trong dân số = 3.000 - cỡ mẫu = 400, - # thành công trong mẫu = 100. Tôi nhận được những điều sau đây cho Xác suất siêu bội P (x = 100) = 0,00224050636447747
Số gen thực tế chồng chéo giữa B và C = 100. Điều này có tốt hơn so với chỉ có cơ hội không? Không giống như vậy nếu cơ hội của bất kỳ một gen nào được làm giàu là 1: 5 (3.000 trong số 15.000). Đó là lý do tại sao tôi không hiểu tại sao P (x = 100) mà tôi tính ở trên là 0,0022. Điều đó có nghĩa là 0,2% cơ hội trùng lặp xảy ra do tình cờ. Điều này có nên cao hơn nhiều không?
Nếu tôi lấy mẫu 400 gen ngẫu nhiên trong danh sách lớn 15.000, thì bất kỳ 80 gen nào trong số này sẽ được làm giàu chỉ bằng cơ hội (1: 5). Số lượng gen thực sự chồng chéo là 100, vì vậy điều này chỉ tốt hơn một chút so với tình cờ.
Tôi cũng đã cố gắng đưa ra một giải pháp bằng cách sử dụng các hàm dhyper hoặc phyper trong R (sử dụng những gì tôi thấy trong một bài khác): A = tất cả các gen trong bộ gen (15.000) B = RNA-Seq làm giàu gen (3.000) C = ChIP -chip gen được làm giàu (400) Đây là đầu vào / đầu ra R (được điều chỉnh từ bài đăng stackexchange trước đó):
> totalpop <- 15000
> sample1 <- 3000
> sample2 <- 400
> dhyper(0:2, sample1, totalpop-sample1, sample2)
[1] 4.431784e-40 4.584209e-38 2.364018e-36
> phyper(-1:2, sample1, totalpop-sample1, sample2)
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36
Tôi không chắc làm thế nào để giải thích những con số này. Tôi tin rằng 2,36e-36 là xác suất có được sự trùng lặp hoàn toàn giữa B và C chỉ bằng cơ hội? Nhưng điều này không có ý nghĩa gì, vì xác suất đó gần với tỷ lệ 1: 5 hơn nhiều. Nếu tôi bắt đầu với 15.000 gen, 3.000 sẽ được làm giàu. Tương tự, nếu tôi bắt đầu với 400 gen chip ChIP, 80 trong số chúng nên được làm giàu trong RNA-Seq một mình do cơ hội làm giàu 1: 5 trong bộ dữ liệu đó.
Cách thích hợp để tính giá trị p, theo phân phối siêu bội, cho sự chồng chéo của B và C là gì?