Xác suất của các chữ cái xuất hiện theo thứ tự trong một chuỗi


8

Giả sử chúng ta có một bảng chữ cái chứa các ký hiệu , , trong đó , và \ Pr (\ $) = 1 - (\ Pr (a) + \ Pr (b) + \ cdots) = 1-mp .m+1{a,b,c,d,e,...,$}Pr ( $ ) = 1 - ( Pr ( a ) + Pr ( b ) + ) = 1 - m pp=Pr(a)=Pr(b)=Pr($)=1(Pr(a)+Pr(b)+)=1mp

Đối với một chuỗi ngẫu nhiên có độ dài n , xác suất mà các chữ cái a,b,c,... (không bao gồm $ ) xảy ra theo thứ tự (không nhất thiết phải liên tiếp) là gì? Nói cách khác, chuỗi có độ dài n và thỏa mãn biểu thức chính quy abc .

Một số làm rõ:

Tôi chỉ cần các chữ cái xuất hiện theo thứ tự đôi khi. Vì vậy, acbc là ok vì nó chứa abc theo thứ tự đó.

Tôi cần tất cả các chữ cái m để xuất hiện theo thứ tự.

Thư có thể được lặp đi lặp lại.

Câu trả lời:


11

Biểu thức chính quy đó biểu thị chuỗi Markov trên các trạng thái tương ứng với trạng thái bắt đầu và từng chữ cái. Việc chuyển đổi được thực hiện từ sang , từ đến , ... và từ chữ áp chót đến chữ cuối cùng, luôn luôn có xác suất . Nếu không thì nhà nước vẫn như cũ. Trạng thái cuối cùng là trạng thái hấp thụ: khi nó đã đạt được, tất cả các chữ cái đã được quan sát theo trình tự.s s a a b pm+1ssaabp

Xét về các trạng thái , ma trận chuyển tiếp là(s,a,b,)

Pm=(1pp0001pp00p001pp0001)

Các kỹ thuật đại số tuyến tính tiêu chuẩn (dạng bình thường của Jordan và sự thay đổi ma trận cơ sở của nó rất đơn giản và thưa thớt, làm cho điều này khá dễ thực hiện) thiết lập cho mục cuối cùng trong hàng đầu tiên của hàng sức mạnh ma trận là nm P n mPmnmPmn

Pmn(1,m+1)=pmi=0nm(m1+im1)(1p)i.

Đây là cơ hội đạt đến trạng thái hấp thụ từ trạng thái bắt đầu sau khi chuyển tiếp : nó trả lời câu hỏi. Nếu bạn thích, nó có thể được biểu thị dưới dạng "dạng đóng" dưới dạng hàm Hypergeometric nhưn

Pmn(1,m+1)=1pm(nm1)(1p)m+n+12F1(1,n+1;n+2m;1p).

Tổng có một giải thích kết hợp dễ chịu. Đặt là vị trí mà chữ cái cuối cùng xuất hiện đầu tiên. Nó được đi trước bởi một chuỗi (có thể trống) không phải s, mỗi chuỗi cơ hội xảy ra; sau đó một với một cơ hội xảy ra; sau đó một chuỗi (có thể không trống) của các số không , v.v. Có các vị trí để đặt sự xuất hiện đầu tiên của , sau đó xuất hiện đầu tiên của a sau đó, v.v. Do đó - bao gồm sự xuất hiện đầu tiên của chữ cái cuối cùng ở vị trí - xác suất làm+ia1papb(m1+im1)abm+i(m1+im1)pm(1p)k . Điều này cho một điều khoản của tổng. Do đó, tổng số phá vỡ các chuỗi theo nơi xuất hiện chữ cái cuối cùng, có thể ở bất kỳ vị trí nào từ vị trí đến điều này rõ ràng là rời rạc - và cộng xác suất của chúng.m+0m+(nm)

Như một ví dụ đơn giản để làm rõ việc giải thích, giả sử và xem xét . Có bốn chuỗi ba ký hiệu, mỗi xác suất và ba chuỗi xác suất khác , trong đó các ký hiệu và xuất hiện theo thứ tự:m=2n=3p3p2(12p)ab

aab,aba,abb,bab;ab$,a$b,$ab.

Do đó, cơ hội là

4p3+3p2(12p)=3p22p3=p2(32p)=p2(1+2(1p))=P23(1,3).

Giải thích tổ hợp là biểu thức chính quy ^ab(với ở vị trí ) xảy ra với xác suất ; và , với ở vị trí , xảy ra theo hai cách và , mỗi cách có xác suất .b2p2^[^a]*a[^b]*bb3^a[^b]b^[^a]abp2(1p)


0

Bởi "Chữ cái có thể được lặp lại", ý bạn là abbc là một chuỗi hợp lệ? Họ 'xuất hiện theo thứ tự'?

Nếu không, dường như là câu trả lời cho tôi. là xác suất trong một không gian nhất định của ký tự không có kết hợp như vậy, sau đó bạn mở rộng nó tới tất cả khoảng trắng có thể có của ký tự 1 - p m m n - m + 1 m1(1pm)nm+11pmmnm+1m

Nếu có thì bạn có giới hạn dưới


Công thức này không đồng ý với việc liệt kê đầy đủ các trường hợp khi và nhỏ, vì vậy nó không thể nói chung là chính xác. nmn
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.