Tổng quát hóa liên tục của phân phối nhị thức âm


24

Phân phối nhị thức âm (NB) được xác định trên các số nguyên không âm và có hàm khối lượng xác suấtCó ý nghĩa gì khi xem xét phân phối liên tục trên các thực không âm được xác định bởi cùng một công thức (thay thế bằng )? Hệ số nhị thức có thể được viết lại dưới dạng sản phẩm của , được xác định rõ cho mọi thực . Vì vậy, chúng tôi sẽ có một tệp PDF Tổng quát hơn, chúng ta có thể thay thế hệ số nhị thức bằng các hàm Gamma, cho phép các giá trị không nguyên của : kN0xR0(k+1)...(k+r-1)kf(x;r,p)αr-1Πi=1(x+i)px(

f(k;r,p)=(k+r1k)pk(1p)r.
kN0xR0(k+1)(k+r1)k
f(x;r,p)i=1r1(x+i)px(1p)r.
r
f(x;r,p)Γ(x+r)Γ(x+1)Γ(r)px(1p)r.

Nó có phải là một phân phối hợp lệ? Nó có tên không? Nó có công dụng gì không? Nó có thể là một số hợp chất hoặc hỗn hợp? Có các công thức đóng cho giá trị trung bình và phương sai (và hằng số tỷ lệ trong PDF) không?

(Tôi hiện đang nghiên cứu một bài báo sử dụng mô hình hỗn hợp NB (với cố định ) và phù hợp với nó thông qua EM. Tuy nhiên, dữ liệu là số nguyên sau một số chuẩn hóa, tức là không phải là số nguyên. Tuy nhiên, các tác giả áp dụng công thức NB tiêu chuẩn để tính toán. khả năng và nhận được kết quả rất hợp lý, vì vậy mọi thứ dường như đều ổn. Tôi thấy nó rất khó hiểu. Lưu ý rằng câu hỏi này không phải là về NB GLM.)r=2


1
Sẽ không phải là một hỗn hợp của Gammas với tham số tỷ lệ ? Nếu bạn mở rộng đa thức bạn sẽ chỉ nhận được , sau đó nhân với giống với , trong đó là hệ số của trong đa thức và dĩ nhiên , vì vậy có vẻ như nó sẽ chuyển đổi thành a trung bình trọng số của phân phối Gamma, nghĩa là hỗn hợp. Π r - 1 i = 1 ( x + i ) Σ r i = 2 một i x i - 1 p x exp { x log p } một i x i - 1 log p < 0logpΠi=1r1(x+i)i=2raixi1pxexp{xlogp}aixi1logp<0
jbowman

... thực sự nên là trong tổng số trên. tôi= =1
jbowman

2
Vì chỉ phụ thuộc vào các tham số, nên nó là một hằng số có thể được hấp thụ theo tỷ lệ. Hơn nữa, cũng có hằng số có thể được bỏ qua. Viết cho , bạn đang hỏi về mật độ tỷ lệ vớiĐiều đó xác định là một yếu tố tỷ lệ và là một tham số hình dạng. Đối với tích phân rõ ràng là một hỗn hợp phân phối Gamma. Mặc dù vậy, không có nghĩa gì để hạn chế đối với số nguyên.( x + r - 1(1p)r1/Γ(r)pk=e-kρρ=-log(p)0f(x;r,ρ)=Γ(x+r)(x+r1x)=Γ(x+r)/(Γ(r)Γ(x+1))1/Γ(r)pk=ekρρ=log(p)0
f(x;r,ρ)=Γ(x+r)Γ(x+1)eρx.
ρr rr
whuber

1
@whuber Đúng rồi. Tôi thực sự đang sử dụng phân phối liên tục trên các giá trị dương và có khối lượng điểm bằng 0. Tôi tin rằng đây là cách tiếp cận chính xác. Nhưng tôi đã được đề nghị sử dụng khái quát hóa liên tục của NB có khả năng khác không ở mức 0 và do đó dường như cho phép xử lý các số 0 chính xác. Do đó câu hỏi của tôi.
amip nói rằng Phục hồi Monica

2
Tôi nghĩ rằng có thể có một số nhầm lẫn trong đề xuất đó: nó xuất hiện để xác định một xác suất (đó là khối lượng điểm có hoặc phân phối NB có 0) với mật độ xác suất (là giá trị của sẽ là). Mật độ khác không cho phép bạn xử lý các số 0 chính xác, bởi vì nó vẫn dự đoán không có khả năng bất kỳ giá trị sẽ phát sinh! f(0,θ)0
whuber

Câu trả lời:


21

Đó là một câu hỏi thú vị. Nhóm nghiên cứu của tôi đã sử dụng phân phối mà bạn đề cập trong một số năm qua trong phần mềm tin sinh học có sẵn công khai của chúng tôi. Theo tôi biết, bản phân phối không có tên và không có tài liệu về nó. Mặc dù bài báo của Chandra et al (2012) được trích dẫn bởi Aksakal có liên quan chặt chẽ, phân phối mà họ cho là dường như bị giới hạn ở các giá trị nguyên cho và dường như họ không đưa ra biểu thức rõ ràng cho pdf.r

Để cung cấp cho bạn một số nền tảng, phân phối NB được sử dụng rất nhiều trong nghiên cứu bộ gen để mô hình hóa dữ liệu biểu hiện gen phát sinh từ RNA-seq và các công nghệ liên quan. Dữ liệu đếm phát sinh khi số lượng trình tự DNA hoặc RNA được trích xuất từ ​​một mẫu sinh học có thể được ánh xạ tới từng gen. Thông thường, có hàng chục triệu lượt đọc từ mỗi mẫu sinh học được ánh xạ tới khoảng 25.000 gen. Ngoài ra, người ta có thể có các mẫu DNA mà từ đó các lần đọc được ánh xạ tới các cửa sổ bộ gen. Chúng tôi và những người khác đã phổ biến một cách tiếp cận theo đó glms NB được trang bị để trình tự đọc cho mỗi gen, và Bayes thực nghiệm các phương pháp được sử dụng đến trung bình các ước lượng phân tán genewise (phân tán ϕ=1/r). Cách tiếp cận này đã được trích dẫn trong hàng chục ngàn bài báo trong tài liệu genomic, vì vậy bạn có thể biết được nó được sử dụng bao nhiêu.

Nhóm của tôi duy trì gói phần mềm edgeR R. Vài năm trước, chúng tôi đã sửa đổi toàn bộ gói để nó hoạt động với số lượng phân số, sử dụng phiên bản liên tục của pmf NB. Chúng tôi chỉ đơn giản chuyển đổi tất cả các hệ số nhị thức trong pmf NB thành tỷ lệ của các hàm gamma và sử dụng nó như một pdf liên tục (hỗn hợp). Động lực cho điều này là số lần đọc theo trình tự đôi khi có thể là một phần do (1) ánh xạ mơ hồ của các lần đọc vào bảng điểm hoặc bộ gen và / hoặc (2) chuẩn hóa số lượng để điều chỉnh các hiệu ứng kỹ thuật. Vì vậy, số lượng đôi khi là số lượng dự kiến ​​hoặc số lượng ước tính thay vì số lượng quan sát được. Và tất nhiên, số lần đọc có thể chính xác bằng 0 với xác suất dương. Cách tiếp cận của chúng tôi đảm bảo rằng kết quả suy luận từ phần mềm của chúng tôi liên tục về số lượng, khớp chính xác với kết quả NB rời rạc khi số lượng ước tính xảy ra là số nguyên.

Theo như tôi biết, không có dạng đóng cho hằng số chuẩn hóa trong pdf, cũng không có dạng đóng cho giá trị trung bình hoặc phương sai. Khi người ta xem xét rằng không có hình thức khép kín cho tích phân (hằng số Fransen-Robinson) rõ ràng là không thể có cho không thể thiếu của NB pdf liên tục trong hai. Tuy nhiên, dường như đối với tôi, các công thức trung bình và phương sai truyền thống cho NB nên tiếp tục là các xấp xỉ tốt cho NB liên tục. Ngoài ra, hằng số chuẩn hóa sẽ thay đổi chậm với các tham số và do đó có thể bị bỏ qua vì có ảnh hưởng không đáng kể trong các tính toán khả năng tối đa.

01Γ(x)dz

f(x;λ)=a(λ)eλλxΓ(x+1)
x0a(λ)λ=10λ=10a(10)=1/0.9998751/2

Trong gói edgeR của chúng tôi, chúng tôi không cần thực hiện bất kỳ điều chỉnh nào cho thực tế là có khối lượng bằng 0, bởi vì chúng tôi luôn làm việc với khả năng đăng nhập có điều kiện hoặc với sự khác biệt về khả năng đăng nhập và mọi hàm delta đều loại bỏ các tính toán. Đây là BTW điển hình cho glms với phân phối xác suất hỗn hợp. Ngoài ra, chúng tôi có thể xem xét phân phối không có khối lượng bằng 0 nhưng có hỗ trợ bắt đầu từ -1/2 thay vì ở mức 0. Hoặc quan điểm lý thuyết dẫn đến các tính toán tương tự trong thực tế.

Mặc dù chúng tôi sử dụng tích cực phân phối NB liên tục, chúng tôi chưa công bố bất cứ điều gì về nó một cách rõ ràng. Các bài viết được trích dẫn dưới đây giải thích cách tiếp cận NB đối với dữ liệu gen nhưng không thảo luận rõ ràng về phân phối NB liên tục.

Tóm lại, tôi không ngạc nhiên khi bài báo bạn đang nghiên cứu thu được kết quả hợp lý từ phiên bản liên tục của pdf pdf, vì đó cũng là kinh nghiệm của chúng tôi. Yêu cầu quan trọng là chúng ta phải mô hình hóa chính xác các phương tiện và phương sai và sẽ cung cấp tốt dữ liệu, cho dù là số nguyên hay không, thể hiện cùng một dạng của mối quan hệ phương sai trung bình bậc hai mà phân phối NB thực hiện.

Tài liệu tham khảo

Robinson, M. và Smyth, GK (2008). Ước tính mẫu nhỏ về phân tán nhị thức âm, với các ứng dụng cho dữ liệu SAGE . Thống kê sinh học 9, 321-323.

Robinson, MD và Smyth, GK (2007). Kiểm tra thống kê được kiểm duyệt để đánh giá sự khác biệt về độ phong phú của thẻ . Tin sinh học 23, 2881-2887.

McCarthy, DJ, Chen, Y, Smyth, GK (2012). Phân tích biểu hiện khác biệt của các thí nghiệm RNA-Seq đa yếu tố liên quan đến biến đổi sinh học . Nghiên cứu axit nucleic 40, 4288-4297.

Chen, Y, Lun, ATL và Smyth, GK (2014). Phân tích biểu hiện khác biệt của các thí nghiệm RNA-seq phức tạp sử dụng edgeR. Trong: Phân tích thống kê dữ liệu trình tự thế hệ tiếp theo, Somnath Datta và Daniel S Nettleton (chủ biên), Springer, New York, trang 51--74. Bản in

Lun, ATL, Chen, Y và Smyth, GK (2016). Đó là DE-Licious: một công thức phân tích biểu hiện khác biệt của các thí nghiệm RNA-seq sử dụng các phương pháp gần đúng trong edgeR. Các phương pháp trong Sinh học phân tử 1418, 391-416. Bản in

Chen Y, Lun ATL và Smyth, GK (2016). Từ đọc đến gen đến các con đường: phân tích biểu hiện khác biệt của các thí nghiệm RNA-Seq bằng cách sử dụng Rsubread và đường ống khả năng gần đúng của edgeR . F1000 Nghiên cứu 5, 1438.


Điều này cực kỳ hữu ích, @Gordon; cảm ơn rất nhiều vì đã dành thời gian để viết nó lên Tôi cũng đang làm việc với dữ liệu RNA-seq, vì vậy một câu trả lời từ quan điểm này đặc biệt có giá trị (hiện tôi đã thêm thẻ [tin sinh học] vào câu hỏi). Công việc của bạn là về biểu hiện khác biệt, trong khi công việc hiện tại của tôi là về phân cụm (bài báo tôi đang đọc là Harris và cộng sự về nội hàm CA1; biorxiv ). Dù sao, hãy để tôi hỏi bạn một vài câu hỏi nhỏ / làm rõ. [cont.]
amip nói rằng Phục hồi Monica

log(p)r

rrr

1
@amoeba Cảm ơn các biorxiv ref. (1) Việc tạo ra NB như một hỗn hợp của Poissons khá nổi tiếng, và có trong các bài báo của chúng tôi, ví dụ McCarthy et al. Việc tạo ra NB liên tục theo sau chỉ bằng cách thay thế Poisson liên tục cho Poisson. Tôi có nên thêm điều này vào câu trả lời của tôi? Sẽ làm cho nó dài. Tôi không thấy làm thế nào NB liên tục có thể được biểu diễn một cách hữu ích như một hỗn hợp các gamma. (2) Không, lạm phát bằng không là một biến chứng bổ sung khác. Chúng tôi tránh sự phức tạp đó trong công việc của chúng tôi.
Gordon Smyth

1
@amoeba (3) Chúng tôi ước tính tất cả các tham số. Điều rất quan trọng là ước tính sự phân tán genewise để đạt được kiểm soát tỷ lệ lỗi và điều này phải được thực hiện một cách cẩn thận vì kích thước mẫu thường rất nhỏ và kích thước của dữ liệu rất lớn. Chúng tôi sử dụng một quy trình phức tạp liên quan đến khả năng hồ sơ được điều chỉnh (nghĩ là REML) trong mỗi gen được liên kết với quy trình Bayes theo kinh nghiệm có khả năng có trọng số giữa các gen. Các glm NB genewise sau đó được ML trang bị với các phân tán cố định. Cuối cùng, các hệ số được kiểm tra bằng các phép thử F gần đúng.
Gordon Smyth

19

Nhìn vào bài báo này: Chandra, Nimai Kumar và Dilip Roy. Một phiên bản liên tục của phân phối nhị thức âm. Statistica 72, không. 1 (2012): 81 .

Nó được định nghĩa trong bài báo là chức năng sinh tồn, đây là một cách tiếp cận tự nhiên vì nhị thức neg được giới thiệu trong phân tích độ tin cậy:

Sr(x)={qxfor r=1k=0r1(x+k1k)pkqxfor r=2,3,
q=eλ,λ0,p+q=1rN,r>0

Cảm ơn! Tôi sẽ xem bài báo này. (Không phải tôi là người bị đánh giá thấp.)
amip nói rằng Rebstate Monica

@amoeba, tôi không lo lắng về việc hạ cấp, đó là internet :)
Aksakal

3
(Thật kỳ lạ khi câu trả lời này đã bị hạ cấp ...) +1
whuber

x

@amoeba, bài báo có những khoảnh khắc, chúng không giống như ở NB, thật không may
Aksakal
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.