Tính xác suất danh sách gen trùng lặp giữa một seq RNA và bộ dữ liệu chip ChIP


13

Hy vọng ai đó trên các diễn đàn này có thể giúp tôi giải quyết vấn đề cơ bản này trong các nghiên cứu biểu hiện gen.

Tôi đã thực hiện trình tự sâu của một thí nghiệm và mô điều khiển. Sau đó tôi đã thu được các giá trị làm giàu gấp của các gen trong mẫu thử nghiệm vượt quá tầm kiểm soát. Bộ gen tham chiếu có ~ 15.000 gen. 3.000 trong số 15.000 gen được làm giàu trên mức giới hạn nhất định trong mẫu quan tâm của tôi so với kiểm soát.

Vậy: A = tổng số gen = 15.000 B = RNA-Seq làm giàu tiểu quần thể = 3.000.

Trong một thử nghiệm chip ChIP trước đây, tôi đã tìm thấy 400 gen được làm giàu bằng chip ChIP. Trong số 400 gen ChIP-chip, 100 gen nằm trong nhóm 3.000 bản sao RNA-Seq được làm giàu.

Vậy: C = tổng số # gen được làm giàu bằng chip ChIP = 400.

Xác suất 100 gen ChIP-chip của tôi sẽ được làm giàu bằng RNA-Seq chỉ bằng cơ hội là bao nhiêu? Nói cách khác, cách khôn ngoan nhất để tính toán nếu sự trùng lặp quan sát được của tôi giữa B và C (100 gen) là tốt hơn so với chỉ có cơ hội? Từ những gì tôi đã đọc cho đến nay, cách tốt nhất để kiểm tra điều này là sử dụng phân phối siêu bội.

Tôi đã sử dụng một máy tính trực tuyến (stattrek.com) để thiết lập thử nghiệm phân phối siêu bội với các tham số sau: - kích thước pop = 15.000 - # thành công trong dân số = 3.000 - cỡ mẫu = 400, - # thành công trong mẫu = 100. Tôi nhận được những điều sau đây cho Xác suất siêu bội P (x = 100) = 0,00224050636447747

Số gen thực tế chồng chéo giữa B và C = 100. Điều này có tốt hơn so với chỉ có cơ hội không? Không giống như vậy nếu cơ hội của bất kỳ một gen nào được làm giàu là 1: 5 (3.000 trong số 15.000). Đó là lý do tại sao tôi không hiểu tại sao P (x = 100) mà tôi tính ở trên là 0,0022. Điều đó có nghĩa là 0,2% cơ hội trùng lặp xảy ra do tình cờ. Điều này có nên cao hơn nhiều không?

Nếu tôi lấy mẫu 400 gen ngẫu nhiên trong danh sách lớn 15.000, thì bất kỳ 80 gen nào trong số này sẽ được làm giàu chỉ bằng cơ hội (1: 5). Số lượng gen thực sự chồng chéo là 100, vì vậy điều này chỉ tốt hơn một chút so với tình cờ.

Tôi cũng đã cố gắng đưa ra một giải pháp bằng cách sử dụng các hàm dhyper hoặc phyper trong R (sử dụng những gì tôi thấy trong một bài khác): A = tất cả các gen trong bộ gen (15.000) B = RNA-Seq làm giàu gen (3.000) C = ChIP -chip gen được làm giàu (400) Đây là đầu vào / đầu ra R (được điều chỉnh từ bài đăng stackexchange trước đó):

> totalpop <- 15000    
> sample1 <- 3000    
> sample2 <- 400    
> dhyper(0:2, sample1, totalpop-sample1, sample2)    
[1] 4.431784e-40 4.584209e-38 2.364018e-36    
> phyper(-1:2, sample1, totalpop-sample1, sample2)    
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36    

Tôi không chắc làm thế nào để giải thích những con số này. Tôi tin rằng 2,36e-36 là xác suất có được sự trùng lặp hoàn toàn giữa B và C chỉ bằng cơ hội? Nhưng điều này không có ý nghĩa gì, vì xác suất đó gần với tỷ lệ 1: 5 hơn nhiều. Nếu tôi bắt đầu với 15.000 gen, 3.000 sẽ được làm giàu. Tương tự, nếu tôi bắt đầu với 400 gen chip ChIP, 80 trong số chúng nên được làm giàu trong RNA-Seq một mình do cơ hội làm giàu 1: 5 trong bộ dữ liệu đó.

Cách thích hợp để tính giá trị p, theo phân phối siêu bội, cho sự chồng chéo của B và C là gì?

Câu trả lời:


15

Bạn gần gũi, với việc bạn sử dụng dhyperphyper, nhưng tôi không hiểu nơi nào 0:2-1:2đến từ đâu.

Giá trị p bạn muốn là xác suất nhận được 100 quả bóng trắng trở lên trong một mẫu có kích thước 400 từ một chiếc bình có 3000 quả bóng trắng và 12000 quả bóng đen. Dưới đây là bốn cách để tính toán nó.

sum(dhyper(100:400, 3000, 12000, 400))
1 - sum(dhyper(0:99, 3000, 12000, 400))
phyper(99, 3000, 12000, 400, lower.tail=FALSE)
1-phyper(99, 3000, 12000, 400)

Những cái này cho 0,0078.

dhyper(x, m, n, k)đưa ra xác suất vẽ chính xác x. Trong dòng đầu tiên, chúng tôi tổng hợp các xác suất cho 100 - 400; trong dòng thứ hai, chúng tôi lấy 1 trừ tổng xác suất từ ​​0 - 99.

phyper(x, m, n, k)đưa ra xác suất nhận được xhoặc ít hơn, phyper(x, m, n, k)cũng giống như vậy sum(dhyper(0:x, m, n, k)).

lower.tail=FALSEmột chút khó hiểu. phyper(x, m, n, k, lower.tail=FALSE)là giống như 1-phyper(x, m, n, k), và xác suất là x+1nhiều hơn. [Tôi không bao giờ nhớ điều này và vì vậy luôn phải kiểm tra lại.]

Tại trang web stattrek.com đó , bạn muốn xem hàng cuối cùng, "Xác suất tích lũy: P (X 100)", thay vì hàng đầu tiên "Xác suất siêu âm: P (X = 100)."

Bất kỳ số cụ thể nào bạn vẽ sẽ có xác suất nhỏ (trên thực tế, max(dhyper(0:400, 3000, 12000, 400))cho 0,050) và nhận được 101 hoặc 102 hoặc bất kỳ số nào lớn hơn thậm chí còn thú vị hơn 100, và giá trị p là xác suất, nếu null giả thuyết là đúng, về việc có được một kết quả thú vị hoặc hơn cả những gì được quan sát.

Dưới đây là hình ảnh của phân phối siêu bội trong trường hợp này. Bạn có thể thấy rằng nó tập trung ở mức 80 (20% của 400) và 100 là khá xa ở đuôi bên phải. nhập mô tả hình ảnh ở đây


Cảm ơn một bó giúp đỡ của bạn. Tôi hiểu logic đằng sau câu trả lời của bạn. Nhưng làm thế nào để tôi giải thích cho một loạt các nhà sinh học rằng điều này lớn hơn sự chồng chéo quan sát được do chỉ có cơ hội? Họ sẽ nói rằng tôi có cơ hội trùng lặp 1: 5. Sự chồng chéo của tôi có đáng kể không vì trong một cỡ mẫu 400 quả bóng (trong tổng số 15.000 quả bóng), cơ hội tôi nhận được một quả bóng trắng thực sự thấp hơn 1: 5 vì tôi đang lấy mẫu một dân số nhỏ hơn (không phải toàn bộ 15.000)? Điều này không có ý nghĩa gì vì mặc dù 400 <15.000, vẫn có tỷ lệ trắng: đen: 1. Điều này có nghĩa không?
stlandroidfan

@stlandroidfan - Tôi không hiểu những gì bạn đang thấy khó hiểu. Tôi đã thêm một con số; không giúp đỡ à?
Karl

0

Hãy nhìn nó theo cách này .. Nếu bạn giả sử nó là nhị thức, điều này có thể không đúng, nhưng nó sẽ khá gần đúng .. sigma của bạn ^ 2 là .8 * .2 * 400 = 64, sau đó sigma = 8. Vì vậy, từ 80 đến 100 bạn đã đi 2,5 độ lệch chuẩn .. Điều này khá đáng kể .. Nó nên có giá trị p nhỏ.


Cảm ơn câu trả lời của bạn. Phân phối siêu bội có xu hướng được sử dụng thường xuyên hơn cho danh sách gen trùng lặp với những gì tôi đã thấy trong tài liệu. Câu hỏi đặt ra là xác suất nhận được 100 quả bóng trắng trở lên trong một mẫu có kích thước 400 từ một chiếc bình có 3000 quả bóng trắng và 12000 quả bóng đen là bao nhiêu? Tôi nghĩ rằng tôi vẫn còn bối rối khi làm thế nào để giải thích điều này với một nhóm các nhà sinh học? Cách họ nhìn thấy nó là 3000: 12000 là cơ hội trắng: đen. Vì vậy, trong một mẫu 400, 80 nên có màu trắng. Vậy làm thế nào để xác suất nhận được 100 hoặc nhiều hơn thấp hơn 20% (1 trên 5)?
stlandroidfan
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.