Xác suất tìm thấy một chuỗi các cặp cơ sở cụ thể


10

Suy nghĩ về xác suất luôn khiến tôi nhận ra mình tệ đến mức nào khi đếm ...

Xét một chuỗi gồm chữ cái cơ bản , mỗi cái có khả năng xuất hiện như nhau. Xác suất mà chuỗi này chứa một chuỗi các cặp lợi ích cơ bản có độ dài bao nhiêu?nA,T,C, and Grn

Có trình tự khác nhau (có khả năng như nhau) có thể. Bắt đầu với chuỗi quan tâm ở đầu chuỗi đầy đủ; trình tự như thế này là có thể. Chúng tôi có thể bắt đầu chuỗi quan tâm của mình ở các địa điểm khác nhau. Do đó, câu trả lời của tôi là .4n4nrn+1r(n+1r)/4r

Xác suất này đang tăng lên trong , điều này có ý nghĩa với tôi. Nhưng xác suất này vượt quá 1 khi . Nhưng điều đó không thể được. Xác suất sẽ đạt 1 trong giới hạn (dường như đối với tôi), nhưng không vượt quá nó.nn>4r+r1

Tôi cho rằng tôi đang nhân đôi thứ gì đó. Tôi đang thiếu gì? Cảm ơn.

(FYI, không phải bài tập về nhà, chỉ là một ví dụ đồ chơi để chuẩn bị cho kỳ thi. Một câu hỏi được đặt ra bởi người bạn sinh học phân tử của tôi.)


Đó là chính xác về nó không nên quá một vì đó sẽ vi phạm các tiên đề xác suất: books.google.com/...
Chris Simokat

Câu trả lời:


5

Hãy cùng xem xét một phiên bản nhỏ của vấn đề này với . Cơ hội một chuỗi năm chữ cái sẽ chứa mục tiêu gì? Điều này thật dễ dàng: trong tất cả các chuỗi bắt đầu bằng chuỗi này, kết thúc với chuỗi đó và không có chuỗi nào bắt đầu và kết thúc bằng chuỗi này. Do đó, cơ hội là .n=5ACGT44442×44

Mặt khác, cơ hội của gì? Một lần nữa, của chuỗi bắt đầu bằng chuỗi này, cùng tỷ lệ kết thúc với chuỗi này và của tất cả các chuỗi làm cả hai . Do đó, theo Nguyên tắc loại trừ bao gồm, câu trả lời là .AAAA44452×4445

Nói chung, câu trả lời phụ thuộc vào cấu trúc của chuỗi con. Cụ thể hơn, khi bạn quét một chuỗi (từ trái sang phải, giả sử) cho , bạn bỏ qua tất cả các ký tự cho đến khi bạn thấy chữ ban đầu đó . Sau đó, có ba khả năng: ký tự tiếp theo là một trận đấu cho , tiếp theo là một tổ chức phi phù hợp cho nhưng không phải là một (do đó bạn đang trở lại trong sự chờ đợi-cho-đã công nhà nước), hoặc kế tiếp là một tổ chức phi trận đấu nhưng nó là một , đặt bạn vào vừa cưa đã công nhà nước. Ngược lại, hãy xem xét một tìm kiếm cho . Giả sử bạn đã thấy tiền tốACGTACCAAAAACTACGACTAC. Nhân vật tiếp theo sẽ phù hợp nếu nó là . Khi không khớp, (i) đưa bạn vào trạng thái chờ đợi ban đầu của trạng thái , (ii) bạn có để ý đến và (iii) có nghĩa là bạn đã thấy và bạn đã đi được một nửa trận đấu (và đang tìm kiếm thứ hai ). "Cấu trúc" có liên quan rõ ràng bao gồm các mẫu của chuỗi con trong mục tiêu khớp với tiền tố của mục tiêu. Đó là lý do tại sao cơ hội phụ thuộc vào chuỗi mục tiêu.GCAACTACTA

Các sơ đồ FSA mà tôi ủng hộ khi trả lời tại Time được thực hiện để đánh vào mô hình đầu và đuôi trong một loạt các lần tung đồng xu có thể giúp hiểu được hiện tượng này.


3

Một xấp xỉ thô sẽ là . Bạn có xác suất rằng chuỗi của bạn không xảy ra tại một vị trí cụ thể, đặt nó vào sức mạnh của số lượng vị trí (giả định độc lập), đó là không phải và đây là một xấp xỉ của nó không xảy ra Vì vậy, sau đó bạn cần phải trừ đi . 1(11/4r)nr+1nr+1nr1

Một tính toán chính xác sẽ phụ thuộc vào mẫu chính xác mà bạn đang tìm kiếm. có nhiều khả năng không xảy ra hơn .AAAAAATCGT


Có thể đó chỉ là tôi, nhưng có vẻ rõ ràng hơn một chút về cách hiểu phương trình được xây dựng. 1(1(1/4)r)n(r1)

@JoeRocc - Tôi nghi ngờ đây là cá nhân. Nếu bạn đọc từ trang đến trang của một cuốn sách, bạn đã đọc trang hay trang? 300400400300+1=101400(3001)=101
Henry

Đừng lo lắng, tôi chỉ đi theo trực giác của mình về vấn đề. Nếu chúng ta trực giác rút ra một phương trình là , thì khi cố gắng giải thích nó cho ai đó tôi nghĩ tốt nhất là để nó như vậy thay vì đơn giản hóa nó thành (mặc dù điều này chắc chắn có thể trở nên trực quan hơn khi xem xét). Trực giác của bạn có thể đã khác trong mọi trường hợp :)(a(b(c1+d)))ab+c1+d

2

Bạn đang nhân đôi số thứ tự bao gồm nhiều lần mục tiêu của bạn, ví dụ cả ở vị trí A và vị trí B! = A. Đó là lý do tại sao xác suất sai lầm của bạn có thể vượt quá 1


Làm rất tốt +1
Michael R. Chernick

1

Có thể có được xác suất chính xác của một chuỗi cụ thể bằng cách sử dụng biểu diễn chuỗi Markov của vấn đề. Các chi tiết cụ thể về cách xây dựng chuỗi phụ thuộc vào mức độ quan tâm cụ thể, nhưng tôi sẽ đưa ra một vài ví dụ về cách thực hiện việc này.


Xác suất chính xác thông qua chuỗi Markov: Xem xét một chuỗi kết quả riêng biệt của trong đó các kết quả trong chuỗi có thể trao đổi và giả sử chúng ta quan tâm đến một số chuỗi con có độ dài . Đối với bất kỳ giá trị nhất định của , chúng ta hãy là sự kiện mà các chuỗi quan tâm xảy ra, và để cho là sự kiện mà người cuối cùng kết quả là người đầu tiên ký tự trong chuỗi con của quan tâm (nhưng không nhiều hơn thế này). Chúng tôi sử dụng các sự kiện này để đưa ra phân vùng sau đây của trạng thái quan tâm có thể có:A,T,C,GknWHaaa<kk+1

State 0W¯H0,   State 1W¯H1,   State 2W¯H2,   State 3W¯H3,   State k1W¯Hk1,State kW.  

Vì chuỗi kết quả được giả định là có thể trao đổi, chúng tôi có kết quả độc lập có điều kiện dựa trên xác suất tương ứng của họ . Quá trình quan tâm của bạn có thể được biểu diễn dưới dạng chuỗi Markov thời gian rời rạc bắt đầu bằng tại và chuyển đổi theo ma trận xác suất phụ thuộc vào chuỗi con quan tâm cụ thể. Ma trận chuyển tiếp sẽ luôn làθA+θT+θC+θG=1State 0n=0(k+1)×(k+1)ma trận đại diện cho xác suất của quá trình chuyển đổi bằng cách sử dụng các trạng thái trên. Nếu chưa đạt được chuỗi con quan tâm thì mỗi lần chuyển đổi có thể đưa bạn đến một bước gần hơn với chuỗi con hoặc nó có thể đưa bạn trở lại trạng thái trước đó phụ thuộc vào chuỗi con cụ thể. Khi đạt được chuỗi con, đây là trạng thái hấp thụ của chuỗi, đại diện cho thực tế là sự kiện quan tâm đã xảy ra.

Ví dụ: nếu chuỗi con quan tâm là thì ma trận chuyển tiếp là:AAAAAA

P=[1θAθA000001θA0θA00001θA00θA0001θA000θA001θA0000θA01θA00000θA0000001.]

Ngược lại, nếu chuỗi con quan tâm là thì ma trận chuyển tiếp là:ACTAGC

P=[1θAθA00001θAθCθAθC00001θAθTθA0θT0001θA000θA001θAθCθGθAθC00θG01θAθCθA0000θC0000001.]

Như có thể thấy ở trên, việc xây dựng ma trận chuyển tiếp đòi hỏi phải chú ý đến chuỗi con cụ thể. Một kết quả không chính xác sẽ đưa bạn trở lại trạng thái trước đó trong chuỗi phụ thuộc vào chuỗi con quan tâm cụ thể. Khi ma trận chuyển tiếp được xây dựng, với giá trị đã cho là xác suất có chuỗi con trong chuỗi là . (Xác suất này bằng 0 cho tất cả .)nP(W|n)={Pn}0,kn<k


Lập trình điều này trong R: Bạn có thể lập trình điều này như một hàm Rbằng cách tạo một hàm tạo ma trận chuyển tiếp cho chuỗi Markov và một mảng sức mạnh của nó lên đến một số thử nghiệm mong muốn. Sau đó, bạn có thể đọc xác suất chuyển tiếp phù hợp cho giá trị của đáng quan tâm. Dưới đây là một ví dụ về một số mã để làm điều này:n

#Create function to give n-step transition matrix for n = 1...N
#We will use the example of the substring of interest "AAAAAA"

#a is the probability of A
#t is the probability of T
#c is the probability of C
#g is the probability of G
#N is the last value of n
PROB <- function(N,a,t,c,g) { TOT <- a+t+c+g;
                              a <- a/TOT; 
                              t <- t/TOT; 
                              c <- c/TOT; 
                              g <- g/TOT; 

                              P <- matrix(c(1-a, a, 0, 0, 0, 0, 0,
                                            1-a, 0, a, 0, 0, 0, 0,
                                            1-a, 0, 0, a, 0, 0, 0,
                                            1-a, 0, 0, 0, a, 0, 0,
                                            1-a, 0, 0, 0, 0, a, 0,
                                            1-a, 0, 0, 0, 0, 0, a,
                                              0, 0, 0, 0, 0, 0, 1),
                                          nrow = 7, ncol = 7, 
                                          byrow = TRUE);
                              PPP <- array(0, dim = c(7,7,N));
                              PPP[,,1] <- P;
                              for (n in 2:N) { PPP[,,n] <- PPP[,,n-1] %*% P; } 
                              PPP }

#Calculate probability for N = 100 for equiprobable outcomes
N <- 100;
a <- 1/4;
t <- 1/4;
c <- 1/4;
g <- 1/4;
PROB(N,a,t,c,g)[1,7,N];

[1] 0.01732435

Như bạn có thể thấy từ tính toán này, xác suất để có được chuỗi con trong tung với kết quả có thể trang bị là . Đây chỉ là một ví dụ sử dụng một chuỗi con cụ thể và một số thử nghiệm nhất định, nhưng nó có thể được thay đổi để có được xác suất liên quan đến các chuỗi con quan tâm khác.AAAAAAn=1000.01732435

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.