Quy trình Dirichlet để phân cụm: làm thế nào để đối phó với nhãn?


14

H: Cách tiêu chuẩn để phân cụm dữ liệu bằng cách sử dụng Quy trình Dirichlet là gì?

Khi sử dụng cụm lấy mẫu Gibbs xuất hiện và biến mất trong quá trình lấy mẫu. Bên cạnh đó, chúng tôi có một vấn đề nhận dạng do phân phối sau là bất biến đối với việc dán lại cụm. Vì vậy, chúng ta không thể nói đó là cụm của một người dùng mà là hai người dùng nằm trong cùng một cụm (đó là p(ci=cj) ).

Chúng ta có thể tóm tắt các bài tập lớp sao cho, nếu là phép gán cụm của điểm , thì bây giờ chúng ta không chỉ có mà còn ?ciici=cjci=cj=cj=...=cz

Đây là những lựa chọn thay thế tôi tìm thấy và tại sao tôi nghĩ rằng chúng không đầy đủ hoặc sai lầm.

(1) Lấy mẫu DP-GMM + Gibbs + ma trận nhầm lẫn dựa trên cặp

Để sử dụng Mô hình hỗn hợp Gaussian của quy trình Dirichlet (DP-GMM) cho một cụm tôi đã triển khai bài báo này trong đó các tác giả đề xuất DP-GMM để ước tính mật độ bằng cách lấy mẫu Gibbs.

Để khám phá hiệu suất phân cụm, họ nói:

Vì số lượng thành phần thay đổi trong chuỗi [MCMC], nên người ta sẽ cần tạo một ma trận nhầm lẫn cho thấy tần số của từng cặp dữ liệu được gán cho cùng một thành phần cho toàn bộ chuỗi, xem Hình 6. nhập mô tả hình ảnh ở đây

Nhược điểm : Đây không phải là một cụm "hoàn chỉnh" thực sự mà là một cụm theo cặp. Hình này trông rất đẹp vì chúng ta biết các cụm thực và sắp xếp ma trận cho phù hợp.

(2) Lấy mẫu DP-GMM + Gibbs + mẫu cho đến khi không có gì thay đổi

Tôi đã tìm kiếm và tôi thấy một số người tuyên bố thực hiện phân cụm dựa trên Quy trình Dirichlet bằng cách sử dụng bộ lấy mẫu Gibbs. Ví dụ, bài đăng này xem xét rằng chuỗi hội tụ khi không có nhiều thay đổi về số lượng cụm hoặc phương tiện, và do đó có được các bản tóm tắt từ đó.

Nhược điểm : Tôi không chắc điều này được cho phép vì nếu tôi không sai:

  • (a) có thể có các chuyển đổi nhãn trong MCMC.

  • (b) ngay cả trong phân phối cố định, bộ lấy mẫu có thể tạo ra một số cụm theo thời gian.

(3) Lấy mẫu DP-GMM + Gibbs + chọn mẫu có phân vùng rất có thể

Trong bài báo này , các tác giả nói:

Sau một thời gian đốt cháy của người Hồi giáo, các mẫu không thiên vị từ phân phối sau của IGMM có thể được rút ra từ bộ lấy mẫu Gibbs. Một cụm cứng có thể được tìm thấy bằng cách vẽ nhiều mẫu như vậy và sử dụng mẫu có khả năng khớp cao nhất của các biến chỉ báo lớp. Chúng tôi sử dụng một triển khai IGMM được sửa đổi được viết bởi M. Mandel .

Nhược điểm : Trừ khi đây là Bộ lấy mẫu Gibbs thu gọn, trong đó chúng tôi chỉ lấy mẫu các bài tập, chúng tôi có thể tính nhưng không phải là biênp(c|θ)p(c) . (Thay vào đó, có phải là một cách thực hành tốt để có trạng thái với cao nhất ?)p(c,θ)

(4) DP-GMM với suy luận đa dạng :

Tôi đã thấy rằng một số thư viện sử dụng suy luận đa dạng. Tôi không biết nhiều về suy luận biến đổi nhưng tôi đoán rằng bạn không có vấn đề về nhận dạng ở đó. Tuy nhiên, tôi muốn bám vào các phương pháp MCMC (nếu có thể).

Bất kỳ tài liệu tham khảo sẽ hữu ích.


Trong cách tiếp cận 3 (chế độ sau), khiếu nại của bạn về không khả dụng không có ý nghĩa nhiều với tôi. Nó có vẻ giống như một khiếu nại về MCMC nói chung hơn là về vấn đề cụ thể này. p(c)
Shadowtalker 2/2/2015

Vâng, chính xác, ý tôi là MCMC không cấp cho chúng tôi quyền truy cập vào và do đó chúng tôi không thể giả vờ rằng chúng tôi có thể nhận nó từ một trạng thái nhất định trong chuỗi. p(c)
alberto

đó là do thiết kế . Trên thực tế, nó vượt xa MCMC: đó là một tính năng tích hợp của bất kỳ mô hình Bayes nào. Nếu bất cứ điều gì, bạn đang gặp phải một vấn đề bởi vì bạn đang cố gắng làm điều gì đó không tự nhiên, điều mà chúng ta bị ám ảnh khi thực hiện: nhồi nhét một ước tính phân phối vào một ước tính điểm
Shadowtalker 2/215

Có những lý do cho việc không muốn làm điều gì đó như thế này ngay từ đầu - có nhiều ý nghĩa khác nhau trong đó mô hình hỗn hợp quy trình Dirichlet không thể ước tính số lượng cụm (và do đó không thể phục hồi tốt " đúng "phân cụm dữ liệu). Có một bài báo gần đây tại NIPS về chủ đề này.
anh chàng

1
Xem tại đây . Tôi nghĩ rằng họ đề xuất thay vì đặt Poisson trước số lượng thành phần (và rút ra một số quy trình nhà hàng để thực hiện nó), nhưng tôi không chắc liệu đây có phải là giấy họ làm không.
anh chàng

Câu trả lời:


1

cp(c,θ)p(c,θ)p(c|θ)

Lý do tôi nói câu trả lời này là "dự kiến" là vì tôi không chắc việc chỉ định một giá trị là "tham số" chỉ là vấn đề ngữ nghĩa hay nếu có một định nghĩa lý thuyết / kỹ thuật hơn mà một trong những người sử dụng bằng tiến sĩ ở đây sẽ có thể làm sáng tỏ.


p(c,θ)=p(c|θ)p(θ)p(c)

@alberto một lần nữa, điều đó không liên quan gì đến mô hình này và mọi thứ liên quan đến thống kê Bayes. Xem tại đây: Groups.google.com/forum/m/#!topic/stan-users/qH-2Mq219ss . Và nếu bạn lo lắng về nhiều chế độ, hãy xem tại đây: Groups.google.com/forum/m/#topic/stan-users/RsVo9NUn0yM và tại đây: stats.stackexchange.com/q/3328/36229
Shadowtalker

1

Tôi chỉ muốn chia sẻ một số tài nguyên về chủ đề này, hy vọng rằng một số trong số chúng có thể hữu ích trong việc trả lời câu hỏi này. Có nhiều hướng dẫn về các quy trình Dirichlet (DP) , bao gồm một số hướng dẫn sử dụng DP để phân cụm . Chúng bao gồm từ "nhẹ nhàng", như hướng dẫn trình bày này , đến nâng cao hơn, như hướng dẫn trình bày này . Cái sau là phiên bản cập nhật của cùng một hướng dẫn, được trình bày bởi Yee Whye Teh tại MLSS'07. Bạn có thể xem video của cuộc nói chuyện đó với các slide được đồng bộ hóa tại đây . Nói về video, bạn có thể xem một cuộc nói chuyện thú vị và có liên quan khác với các slide của Tom Griffith tại đây . Về mặt hướng dẫn định dạng giấy, hướng dẫn này là một trong những tốt đẹp và khá phổ biến.

Cuối cùng, tôi muốn chia sẻ một vài giấy tờ liên quan. Bài viết về DP phân cấp này có vẻ quan trọng và phù hợp. Điều tương tự áp dụng cho bài viết này của Radford Neal. Nếu bạn quan tâm đến việc mô hình hóa chủ đề , phân bổ Dirichlet tiềm ẩn (LDA) rất có thể cũng sẽ nằm trên radar của bạn. Trong trường hợp đó, bài báo gần đây này trình bày một cách tiếp cận LDA mới và cải tiến hơn nhiều. Liên quan đến lĩnh vực mô hình hóa chủ đề, tôi khuyên bạn nên đọc tài liệu nghiên cứu của David Blei và cộng tác viên của mình. Bài viết này là một bài giới thiệu, phần còn lại bạn có thể tìm thấy trên trang ấn phẩm nghiên cứu của ông. Tôi nhận ra rằng một số tài liệu mà tôi đã đề xuất có thể quá cơ bản đối với bạn, nhưng tôi nghĩ rằng bằng cách bao gồm tất cả mọi thứ tôi chạy qua về chủ đề này, tôi sẽ tăng cơ hội cho bạn tìm câu trả lời .


Tôi hiểu những gì bạn đang cố gắng làm ở đây, nhưng nó thực sự không giải quyết được câu hỏi.
Shadowtalker 2/2/2015

1
@ssdecontrol: Nếu bạn hiểu những gì tôi đang cố gắng làm ở đây (điều này giúp OP khám phá câu trả lời và học một hoặc hai điều), thì ý kiến ​​của bạn là gì? Tôi chưa bao giờ tuyên bố rằng câu trả lời của tôi là các câu trả lời, nhưng bày tỏ hy vọng rằng nó là hữu ích , đó là cuối cùng lên đến OP để quyết định. Nếu bạn có câu trả lời tốt hơn, tôi chắc chắn rằng nó sẽ được OP và cộng đồng đánh giá cao.
Alexanderr Blekh 2/2/2015

1
Yup, tôi hoàn toàn hiểu. Đó là rất nhiều những gì tôi làm ở đây là tốt. Nhưng câu hỏi là hỏi về cách đúng để chọn nhãn cụm từ kết quả MCMC và tôi không nghĩ rằng câu hỏi này giải quyết câu hỏi đó.
Shadowtalker 2/2/2015

@AleksandrBlekh Tôi đồng ý với ssdecontrol rằng đó là một chút lạc đề vì OP dường như biết "những điều cơ bản" và hỏi một câu hỏi cụ thể.
Tim

1
@AleksandrBlekh Tôi đánh giá cao bài viết của bạn, ít nhất nó là một bản tóm tắt tốt cho phần giới thiệu về DP. Tôi biết những điều cơ bản (trình độ trung cấp, giả sử), nhưng ít nhất các tài liệu tham khảo của bạn đã khiến tôi quay lại LDA và nhận ra rằng họ xoay quanh vấn đề vì nhãn của họ thường không chuyển đổi.
alberto
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.