Sự khác biệt giữa DP và CRP là gì?
Quy trình nhà hàng Trung Quốc (CRP) là một phân phối trên các phân vùng của số nguyên . Kết nối với Quy trình Dirichlet (DP) tồn tại nhờ định lý của De Finetti.
Định lý của De Finetti: Giả sử chúng ta có một quá trình ngẫu nhiên có thể trao đổi vô hạn , thì xác suất chung có một biểu diễn dưới dạng hỗn hợp:p ( θ 1 , ... , θ N )( θ1, ... , θN)p ( θ1, ... , θN)
p ( θ1, ... , θN) = ∫dP( G ) Πi = 1NG ( θTôi)
đối với một số biến ngẫu nhiên .G
Các exchangeability phương tiện tài sản mà chúng ta không quan tâm đến một trong hai chỉ số của bảng (chúng tôi không đặt tên cho bảng) và chúng tôi không quan tâm đến thứ tự của các khách hàng tại một bảng cụ thể. Phân vùng khách hàng thành các bộ khác nhau là cấu trúc duy nhất chúng tôi quan tâm. Điều này có nghĩa là với một phân vùng chúng tôi không cần biết các bài tập cụ thể của khách hàng cho các bảng, chúng tôi chỉ cần biết số lượng khách hàng tại mỗi bảng.
Định lý De Finetti của không giúp đỡ trong việc tìm kiếm sự phân bố . Nó chỉ nói rằng nó nên tồn tại.G
Quá trình Dirichlet là một trước khi phân phối . Một cách không chính thức, bạn đã ném vào một phân phối xác suất và khi bạn lấy mẫu từ nó, bạn sẽ nhận được phân phối xác suất sau khi phân phối xác suất.
Kết nối giữa cả hai có thể được thiết lập bằng cách chứng minh rằng nếu được lấy mẫu từ Quy trình Dirichlet, phương trình trong định lý của De Finetti giữ cho cụ thể này .GGG
Nếu
G ∼ D P( α , H)
sau đó
p ( { θ( z= 0 )0, ... , θ( z= 0 )n0} , ... , { θ( z= k )0, ... , θ( z= k )nk} ) = αkΓ ( α )Γ ( α + n )Πi = 0kΓ ( nTôi)
Lưu ý rằng được CRP mô tả thông qua xác suất cho các phân vùng cụ thể. Ở đây biểu thị một chỉ số bảng . Và là số lượng khách hàng tại bảng . Để hoàn thiện, hãy nhớ rằng là:p ( θ1, ... , θN)z= tôiTôinTôiTôiD P
{ G ( A1) , ... , G ( Mộtk) } ~ D i r i c h l đ t ( α H( Một1) , ... , α H( Mộtk) )
Tôi nghĩ rằng rõ ràng từ giải trình này là kết nối ở đó, nhưng không nên được coi là tầm thường. Cũng lưu ý rằng tôi đã không mô tả CRP theo nghĩa phân phối có điều kiện đối với các khách hàng cá nhân đến. Điều này sẽ thêm một bước khái niệm khác giữa CRP và DP. Lời khuyên của tôi: cảm thấy thoải mái về việc không thoải mái khi hiểu trực tiếp mối quan hệ của họ và bắt đầu chơi xung quanh với việc mô tả các phân phối chung và cận biên cho đến khi bạn tạo lại kết nối. CRP thu được bằng cách gạt ra khỏi từ DP.G
Để biết mối liên hệ giữa xác suất chung và mô tả tuần tự của CRP, xem [1].
Điều gì xảy ra nếu khả năng trao đổi không giữ được?
Nếu khả năng trao đổi không giữ được, chúng tôi sẽ không nói thêm về DP hoặc CRP, mà là về Quy trình Dirichlet phụ thuộc và Quy trình nhà hàng Trung Quốc phụ thuộc. Và tự nhiên, kết nối giữa họ bị mất!
Xem [2] để biết chi tiết. CRP phụ thuộc mô tả khách hàng nào muốn ngồi cùng với khách hàng nào (độc thân). Bằng cách phân cụm tất cả các mối quan hệ khách hàng-khách hàng, chúng tôi có thể phân công qua các bảng. CRP phụ thuộc không phải là bất biến biên: xác suất của một phân vùng khi loại bỏ một khách hàng cũng phụ thuộc vào chính khách hàng đó. Ngược lại, DP phụ thuộc thường được xác định bởi chính điều này: . Ở đây, ví dụ là bản phân phối Dirichlet hoặc bất kỳ bản phân phối nào khiến và có liên quan.Gt~ D P( α , H)HGtGt'
Có nhiều cách khái quát khác có thể, một số trong số họ sẽ thừa nhận đại diện cho các phân vùng cũng như phân phối, chẳng hạn như Quy trình nhà hàng Trung Quốc với hai tham số với Quy trình Pitman-Yor hoặc Quy trình tự chọn Ấn Độ với Quy trình Beta [3] . Một số trong số họ sẽ không.
- [1] : Hướng dẫn về các mô hình không đối xứng Bayes (2011) Gershman và Blei
- [2] : Quy trình nhà hàng Trung Quốc phụ thuộc từ xa (2011) Blei và Frazier
- [3] : Các quy trình Beta phân cấp và Quy trình buffet Ấn Độ (2007) Thibaux và Jordan