Đó là một câu hỏi thú vị. Nhóm nghiên cứu của tôi đã sử dụng phân phối mà bạn đề cập trong một số năm qua trong phần mềm tin sinh học có sẵn công khai của chúng tôi. Theo tôi biết, bản phân phối không có tên và không có tài liệu về nó. Mặc dù bài báo của Chandra et al (2012) được trích dẫn bởi Aksakal có liên quan chặt chẽ, phân phối mà họ cho là dường như bị giới hạn ở các giá trị nguyên cho và dường như họ không đưa ra biểu thức rõ ràng cho pdf.r
Để cung cấp cho bạn một số nền tảng, phân phối NB được sử dụng rất nhiều trong nghiên cứu bộ gen để mô hình hóa dữ liệu biểu hiện gen phát sinh từ RNA-seq và các công nghệ liên quan. Dữ liệu đếm phát sinh khi số lượng trình tự DNA hoặc RNA được trích xuất từ một mẫu sinh học có thể được ánh xạ tới từng gen. Thông thường, có hàng chục triệu lượt đọc từ mỗi mẫu sinh học được ánh xạ tới khoảng 25.000 gen. Ngoài ra, người ta có thể có các mẫu DNA mà từ đó các lần đọc được ánh xạ tới các cửa sổ bộ gen. Chúng tôi và những người khác đã phổ biến một cách tiếp cận theo đó glms NB được trang bị để trình tự đọc cho mỗi gen, và Bayes thực nghiệm các phương pháp được sử dụng đến trung bình các ước lượng phân tán genewise (phân tán ϕ=1/r). Cách tiếp cận này đã được trích dẫn trong hàng chục ngàn bài báo trong tài liệu genomic, vì vậy bạn có thể biết được nó được sử dụng bao nhiêu.
Nhóm của tôi duy trì gói phần mềm edgeR R. Vài năm trước, chúng tôi đã sửa đổi toàn bộ gói để nó hoạt động với số lượng phân số, sử dụng phiên bản liên tục của pmf NB. Chúng tôi chỉ đơn giản chuyển đổi tất cả các hệ số nhị thức trong pmf NB thành tỷ lệ của các hàm gamma và sử dụng nó như một pdf liên tục (hỗn hợp). Động lực cho điều này là số lần đọc theo trình tự đôi khi có thể là một phần do (1) ánh xạ mơ hồ của các lần đọc vào bảng điểm hoặc bộ gen và / hoặc (2) chuẩn hóa số lượng để điều chỉnh các hiệu ứng kỹ thuật. Vì vậy, số lượng đôi khi là số lượng dự kiến hoặc số lượng ước tính thay vì số lượng quan sát được. Và tất nhiên, số lần đọc có thể chính xác bằng 0 với xác suất dương. Cách tiếp cận của chúng tôi đảm bảo rằng kết quả suy luận từ phần mềm của chúng tôi liên tục về số lượng, khớp chính xác với kết quả NB rời rạc khi số lượng ước tính xảy ra là số nguyên.
Theo như tôi biết, không có dạng đóng cho hằng số chuẩn hóa trong pdf, cũng không có dạng đóng cho giá trị trung bình hoặc phương sai. Khi người ta xem xét rằng không có hình thức khép kín cho tích phân
(hằng số Fransen-Robinson) rõ ràng là không thể có cho không thể thiếu của NB pdf liên tục trong hai. Tuy nhiên, dường như đối với tôi, các công thức trung bình và phương sai truyền thống cho NB nên tiếp tục là các xấp xỉ tốt cho NB liên tục. Ngoài ra, hằng số chuẩn hóa sẽ thay đổi chậm với các tham số và do đó có thể bị bỏ qua vì có ảnh hưởng không đáng kể trong các tính toán khả năng tối đa.
∫∞01Γ(x)dz
f(x;λ)=a(λ)e−λλxΓ(x+1)
x≥0a(λ)λ=10λ=10a(10)=1/0.999875−1/2∞
Trong gói edgeR của chúng tôi, chúng tôi không cần thực hiện bất kỳ điều chỉnh nào cho thực tế là có khối lượng bằng 0, bởi vì chúng tôi luôn làm việc với khả năng đăng nhập có điều kiện hoặc với sự khác biệt về khả năng đăng nhập và mọi hàm delta đều loại bỏ các tính toán. Đây là BTW điển hình cho glms với phân phối xác suất hỗn hợp. Ngoài ra, chúng tôi có thể xem xét phân phối không có khối lượng bằng 0 nhưng có hỗ trợ bắt đầu từ -1/2 thay vì ở mức 0. Hoặc quan điểm lý thuyết dẫn đến các tính toán tương tự trong thực tế.
Mặc dù chúng tôi sử dụng tích cực phân phối NB liên tục, chúng tôi chưa công bố bất cứ điều gì về nó một cách rõ ràng. Các bài viết được trích dẫn dưới đây giải thích cách tiếp cận NB đối với dữ liệu gen nhưng không thảo luận rõ ràng về phân phối NB liên tục.
Tóm lại, tôi không ngạc nhiên khi bài báo bạn đang nghiên cứu thu được kết quả hợp lý từ phiên bản liên tục của pdf pdf, vì đó cũng là kinh nghiệm của chúng tôi. Yêu cầu quan trọng là chúng ta phải mô hình hóa chính xác các phương tiện và phương sai và sẽ cung cấp tốt dữ liệu, cho dù là số nguyên hay không, thể hiện cùng một dạng của mối quan hệ phương sai trung bình bậc hai mà phân phối NB thực hiện.
Tài liệu tham khảo
Robinson, M. và Smyth, GK (2008). Ước tính mẫu nhỏ về phân tán nhị thức âm, với các ứng dụng cho dữ liệu SAGE . Thống kê sinh học 9, 321-323.
Robinson, MD và Smyth, GK (2007). Kiểm tra thống kê được kiểm duyệt để đánh giá sự khác biệt về độ phong phú của thẻ . Tin sinh học 23, 2881-2887.
McCarthy, DJ, Chen, Y, Smyth, GK (2012). Phân tích biểu hiện khác biệt của các thí nghiệm RNA-Seq đa yếu tố liên quan đến biến đổi sinh học . Nghiên cứu axit nucleic 40, 4288-4297.
Chen, Y, Lun, ATL và Smyth, GK (2014). Phân tích biểu hiện khác biệt của các thí nghiệm RNA-seq phức tạp sử dụng edgeR. Trong: Phân tích thống kê dữ liệu trình tự thế hệ tiếp theo, Somnath Datta và Daniel S Nettleton (chủ biên), Springer, New York, trang 51--74. Bản in
Lun, ATL, Chen, Y và Smyth, GK (2016). Đó là DE-Licious: một công thức phân tích biểu hiện khác biệt của các thí nghiệm RNA-seq sử dụng các phương pháp gần đúng trong edgeR. Các phương pháp trong Sinh học phân tử 1418, 391-416. Bản in
Chen Y, Lun ATL và Smyth, GK (2016). Từ đọc đến gen đến các con đường: phân tích biểu hiện khác biệt của các thí nghiệm RNA-Seq bằng cách sử dụng Rsubread và đường ống khả năng gần đúng của edgeR . F1000 Nghiên cứu 5, 1438.