Các phân phối Dirichlet là một phân bố xác suất đa biến mô tả biến X 1 , ... , X k , như vậy mà mỗi x i ∈ ( 0 , 1 ) và Σ N i = 1 x i = 1 , đó là parametrized bởi một vector các thông số dương có giá trị α = ( α 1 , ... , α k ) . Các thông số khôngk≥2X1,…,Xkxi∈(0,1)∑Ni=1xi=1α=(α1,…,αk)phải là số nguyên, chúng chỉ cần là số thực dương. Chúng không được "chuẩn hóa" theo bất kỳ cách nào, chúng là các tham số của phân phối này.
Phân phối Dirichlet là một khái quát của phân phối beta thành nhiều chiều, vì vậy bạn có thể bắt đầu bằng cách tìm hiểu về phân phối beta. Beta là một phân phối đơn biến của một biến ngẫu nhiên tham số của thông số α và β . Trực giác tốt đẹp về nó đi kèm nếu bạn nhớ lại rằng nó là mộtliên hợp trước khichophân phối nhị thứcvà nếu chúng ta giả định một phiên bản beta trước khi tham số của α và β cho tham số khả năng phân phối nhị thức của p , sau đó phân phối sau của pX∈(0,1)αβαβppcũng là một bản phân phối beta được tham số hóa bởi và β ′ = β + số lần thất bại . Vì vậy, bạn có thể nghĩ về α và β như các giả ngẫu nhiên (chúng không cần phải là số nguyên) của những thành công và thất bại (cũng kiểm tra chủ đề này ).α′=α+number of successesβ′=β+number of failuresαβ
Trong trường hợp phân phối Dirichlet, nó là liên hợp trước cho phân phối đa thức . Nếu trong trường hợp phân phối nhị thức, chúng ta có thể nghĩ về việc vẽ các quả bóng trắng và đen bằng sự thay thế từ chiếc bình, thì trong trường hợp phân phối đa cực, chúng ta đang vẽ với các quả bóng thay thế xuất hiện trong k màu, trong đó mỗi màu các quả bóng có thể được rút ra với xác suất , ... , α k thông số có thể được coi như pseudocounts của quả bóng của mỗi màu giả một tiên nghiệm (nhưng bạn nên đọc cũng về những cạm bẫy của lập luận như vậyNk . Phân phối Dirichlet là một liên hợp trước choxác suất p 1 , R , p k và α 1p1,…,pkp1,…,pkα1,…,αk). Trong mô hình đa cực Dirichlet được cập nhật bằng cách tổng hợp chúng với số lượng quan sát trong mỗi thể loại: α 1 + n 1 , ... , α k + n k trong thời trang tương tự như trong trường hợp của mô hình beta-nhị thức.α1,…,αkα1+n1,…,αk+nk
Giá trị cao hơn , càng "trọng lượng" của X i và số tiền lớn hơn tổng "đại chúng" được gán cho nó (nhớ lại rằng trong tổng số nó phải là x 1 + ⋯ + x k = 1αiXix1+⋯+xk=1 ). Nếu tất cả các bằng nhau, phân phối là đối xứng. Nếu α i < 1 , nó có thể được coi là chống trọng lượng đẩy x i về phía cực trị, trong khi khi nó ở mức cao, nó thu hút x i về một giá trị trung tâm (trung tâm theo nghĩa là tất cả các điểm tập trung xung quanh nó, không phảiαiαi<1xixitheo nghĩa là nó là đối xứng trung tâm). Nếu , thì các điểm được phân bố đồng đều.α1=⋯=αk=1
Điều này có thể được nhìn thấy trên các ô bên dưới, nơi bạn có thể thấy các phân phối Dirichlet tầm thường (không may là chúng ta có thể tạo ra các lô hợp lý chỉ tối đa ba chiều) được tham số hóa bởi (a) , (b) α 1 = α 2 = α 3 = 10 , (c) α 1 = 1 , αα1=α2=α3=1α1=α2=α3=10 , (d) α 1 = α 2 = α 3α1=1,α2=10,α3=5 .α1=α2=α3=0.2
Phân phối Dirichlet đôi khi được gọi là "phân phối trên các phân phối" , vì nó có thể được coi là một phân phối xác suất. Chú ý rằng vì mỗi và Σ k i = 1 x i = 1 , sau đó x i 's phù hợp với người đầu tiên và thứ hai tiên đề xác suất . Vì vậy, bạn có thể sử dụng phân phối Dirichlet như một phân phối xác suất cho các sự kiện riêng biệt được mô tả bởi các phân phối như phân loại hoặc đa phương thức . Nó làxi∈(0,1)∑ki=1xi=1xikhông đúng vì đó là phân phối trên bất kỳ phân phối nào, ví dụ: nó không liên quan đến xác suất của các biến ngẫu nhiên liên tục hoặc thậm chí một số biến rời rạc (ví dụ: biến ngẫu nhiên phân tán Poisson mô tả xác suất quan sát các giá trị là bất kỳ số tự nhiên nào, vì vậy nên sử dụng phân phối Dirichlet theo xác suất của chúng, bạn cần vô số biến ngẫu nhiên ).k