Đóng khung phân phối nhị thức âm tính cho trình tự DNA


16

Phân phối nhị thức âm tính đã trở thành một mô hình phổ biến cho dữ liệu đếm (cụ thể là số lần đọc trình tự dự kiến ​​trong một khu vực nhất định của bộ gen từ một thí nghiệm nhất định) trong tin sinh học. Giải thích khác nhau:

  • Một số người giải thích nó là một cái gì đó hoạt động như phân phối Poisson nhưng có một tham số bổ sung, cho phép tự do hơn để mô hình hóa phân phối thực sự, với phương sai không nhất thiết phải bằng giá trị trung bình
  • Một số người giải thích nó như là một hỗn hợp có trọng số của các phân phối Poisson (với phân phối trộn gamma trên tham số Poisson)

Có cách nào để bình phương các tỷ lệ hợp lý này với định nghĩa truyền thống về phân phối nhị thức âm khi mô hình hóa số lần thành công của các thử nghiệm Bernoulli trước khi thấy một số thất bại nhất định? Hay tôi chỉ nên nghĩ về nó như một sự trùng hợp vui vẻ khi một hỗn hợp có trọng số của các phân phối Poisson với phân phối trộn gamma có chức năng khối lượng xác suất tương tự như nhị thức âm?


2
Nó cũng là một phân phối Poisson tổng hợp trong đó bạn tổng hợp một số biến ngẫu nhiên logarit phân phối Poisson.
Douglas Zare

Câu trả lời:


8

IMOH, tôi thực sự nghĩ rằng phân phối nhị thức âm được sử dụng cho thuận tiện.

Vì vậy, trong RNA Seq, có một giả định phổ biến rằng nếu bạn thực hiện một số lượng vô hạn các phép đo của cùng một gen trong một số lượng sao chép vô hạn thì phân phối thực sự sẽ là bất thường. Phân phối này sau đó được lấy mẫu thông qua quy trình Poisson (có số đếm), do đó, phân phối thực sự đọc trên mỗi gen trên các bản sao sẽ là phân phối Poisson-Logn normal.

Nhưng trong các gói mà chúng tôi sử dụng như EdgeR và DESeq, phân phối này được mô hình hóa như một phân phối nhị thức âm. Điều này không phải là vì những người đã viết nó không biết về bản phân phối logic của Poisson.

Đó là bởi vì phân phối Poisson Lognatural là một điều tồi tệ để làm việc bởi vì nó đòi hỏi tích hợp số để thực hiện phù hợp, vì vậy khi bạn thực sự cố gắng sử dụng nó đôi khi hiệu suất thực sự rất tệ.

Phân phối nhị thức âm có dạng đóng nên dễ làm việc hơn và phân phối gamma (phân phối cơ bản) trông rất giống phân phối logic trong đó đôi khi trông có vẻ bình thường và đôi khi có đuôi.

Nhưng trong ví dụ này (nếu bạn tin giả định) thì có thể không đúng về mặt lý thuyết bởi vì phân phối chính xác về mặt lý thuyết là logic bất thường và hai phân phối là xấp xỉ hợp lý của nhau nhưng không tương đương.

Nhưng tôi vẫn nghĩ rằng phân phối nhị thức âm "không chính xác" thường là lựa chọn tốt hơn bởi vì theo kinh nghiệm, nó sẽ cho kết quả tốt hơn vì tích hợp hoạt động chậm và phù hợp có thể hoạt động kém, đặc biệt là với các phân phối có đuôi dài.


7

Tôi đã xem qua một vài trang web và không thể tìm thấy lời giải thích, nhưng tôi đã đưa ra một trang cho các giá trị nguyên của . Giả sử chúng ta có hai nguồn phóng xạ độc lập tạo ra các hạt alpha và beta với tỷ lệ tương ứng và .alpha betarαβ

Sự phân bố số lượng hạt alpha trước hạt beta thứ gì?r

  1. Coi các hạt alpha là thành công và các hạt beta là thất bại. Khi một hạt được phát hiện, xác suất đó là hạt alpha là . Vì vậy, đây là phân phối nhị thức âm . NB(r,ααα+βNB(r,αα+β)

  2. Hãy xem xét thời gian của hạt beta thứ . Điều này tuân theo phân phối gammaNếu bạn điều kiện trên , thì số lượng hạt alpha trước thời gian tuân theo phân phối PoissonVì vậy, sự phân bố số lượng hạt alpha trước hạt beta thứ là phân phối Poisson hỗn hợp Gamma. r Γ ( r , 1 / β ) . t r = λ / α t r Pois ( λ ) . rtrrΓ(r,1/β).tr=λ/αtrPois(λ).r

Điều đó giải thích tại sao các phân phối này là bằng nhau.


2

Tôi chỉ có thể cung cấp trực giác, nhưng bản phân phối gamma mô tả thời gian chờ đợi (liên tục) (mất bao lâu để một sự kiện hiếm xảy ra). Vì vậy, thực tế rằng một hỗn hợp phân phối gamma của các phân phối poisson rời rạc sẽ dẫn đến thời gian chờ đợi riêng biệt (các thử nghiệm cho đến khi N thất bại) dường như không quá ngạc nhiên. Tôi hy vọng ai đó có một câu trả lời chính thức hơn.

Chỉnh sửa: Tôi luôn luôn biện minh cho các nhị thức tiêu cực. để giải trình tự như sau: Bước giải trình tự thực tế chỉ đơn giản là lấy mẫu đọc từ một thư viện lớn các phân tử (poisson). Tuy nhiên, thư viện đó được tạo ra từ mẫu ban đầu bằng PCR. Điều đó có nghĩa là các phân tử ban đầu được khuếch đại theo cấp số nhân. Và phân phối gamma mô tả tổng của k biến ngẫu nhiên phân bố theo cấp số nhân, nghĩa là có bao nhiêu phân tử trong thư viện sau khi khuếch đại k phân tử mẫu cho cùng một số chu kỳ PCR.

Do đó các mô hình nhị thức âm tính PCR theo sau là giải trình tự.


Điều đó có ý nghĩa, nhưng trong bối cảnh đo lường số lần đọc trình tự trong bộ gen, có một lời giải thích trực quan cho thời gian chờ đợi trong phân phối nhị thức âm tính đại diện cho điều gì? Trong trường hợp này, không có thời gian chờ đợi - anh ta chỉ đo số lần đọc trình tự.
RobertF

Xem chỉnh sửa của tôi. Tôi không thấy suy nghĩ của nó về thời gian chờ phù hợp với cài đặt tuần tự. Hỗn hợp gamma poisson dễ giải thích hơn. Nhưng cuối cùng họ là điều tương tự.
Felix Schlesinger

2
Ok - có lẽ câu hỏi thực sự là sự trùng hợp nào khi mô hình hóa k thành công + thất bại r trong các thử nghiệm Bernoulli tuân theo hỗn hợp gamma Poisson? Có thể mô hình nhị thức âm k thành công k thất bại dbns riêng biệt?
RobertF

2

Tôi sẽ cố gắng đưa ra một diễn giải cơ học đơn giản mà tôi thấy hữu ích khi nghĩ về điều này.

μpμ1ppNB(μ1pp,p)

μ1ppp1p=μσ2=μ(1p)1

(1p)1

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.