Khi nào nên sử dụng LDA trên GMM để phân cụm?


8

Tôi có một bộ dữ liệu chứa hoạt động của người dùng với 168 kích thước, nơi tôi muốn trích xuất các cụm bằng cách học không giám sát. Tôi không rõ liệu nên sử dụng phương pháp mô hình hóa chủ đề trong phân bổ Direntlet tiềm ẩn (LDA) hay Mô hình hỗn hợp Gaussian (GMM), theo cách tiếp cận Bayes hơn. Về vấn đề đó tôi có 2 câu hỏi liên quan:

  1. Sự khác biệt chính giữa hai phương pháp là gì? Tôi biết những điều cơ bản của hai mô hình, nhưng tôi tò mò về những gì thực sự làm cho nhau khác nhau. Có thể một cái gì đó trong vấn đề / dữ liệu cho tôi biết liệu một mô hình có phù hợp hơn không?

  2. Nếu tôi áp dụng cả hai phương pháp cho dữ liệu của mình, làm thế nào tôi có thể so sánh kết quả để xem phương pháp nào tốt hơn?

Cập nhật

Các biến hoạt động của 168 người dùng là số lượng của một hoạt động, do đó giữ các giá trị rời rạc tích cực. Không có giá trị tối đa, nhưng khoảng 90% các biến đạt được giá trị trong khoảng .[0,3]

Có thể có ý nghĩa đơn giản là mô hình hóa tất cả các biến hoạt động này thành các biến nhị phân mô tả xem nó bằng 0 hay khác không, nhưng chúng ta chưa biết đủ về vấn đề để xác định điều đó. Điều chính chúng tôi đang tìm kiếm là cái nhìn sâu sắc về các cụm hoạt động người dùng khác nhau.


Không LDA yêu cầu dữ liệu của bạn là tất cả các biến phân loại đa quốc gia, trong khi GMM chắc chắn yêu cầu dữ liệu của bạn là tất cả các biến liên tục. 168 loại dữ liệu hoạt động người dùng của bạn là gì?
gung - Tái lập Monica

Đó có thể là. Xem bài gốc cập nhật.
cướp biển

Câu trả lời:


4

Tôi sẽ không sử dụng các mô hình hỗn hợp Gaussian , vì chúng yêu cầu các phân phối cấu thành cho tất cả đều bình thường. Bạn có số lượng, vì vậy GMM không phù hợp theo định nghĩa.

Phân bổ Dirichlet tiềm ẩn (công bố đầy đủ: Tôi thực sự không biết mô hình hóa chủ đề) yêu cầu dữ liệu của bạn phải đa dạng , nhưng bạn có thể đếm trong trường hợp đó, họ sẽ tính các lần xuất hiện của các loại khác nhau của một biến. Một khả năng khác là số lượng của bạn là số lượng các biến khác nhau, như có nhiều biến Poisson . Đây là một chút câu hỏi về bản thể học cho cách bạn nghĩ về dữ liệu của bạn.

Hãy xem xét một ví dụ đơn giản khi tôi đi đến cửa hàng tạp hóa vì tôi muốn một ít trái cây. Tôi sẽ mua một số lượng nhất định táo, cam, đào và chuối. Mỗi trong số đó có thể được coi là một biến Poisson riêng biệt. Khi tôi về nhà, tôi đặt tất cả chúng vào một bát trái cây. Sau này, khi tôi cảm thấy thích ăn vặt, tôi có thể thò tay vào bát mà không cần nhìn và lấy hai miếng trái cây (ví dụ: một quả táo và một quả đào). Đó có thể được coi là một sự rút ra từ một phân phối đa quốc gia. Trong cả hai trường hợp, tôi có vô số danh mục, nhưng chúng tôi nghĩ về chúng khác nhau. Trong trường hợp đầu tiên, các loại trái cây tôi sẽ mua được biết trước khi tôi đến cửa hàng tạp hóa, nhưng số lượng mua trong mỗi loại có thể khác nhau. Trong trường hợp thứ hai, tôi không biết mình sẽ chọn loại trái cây nào nhưng tôi biết tôi đang lấy hai loại trong số các loại có thể.

Nếu dữ liệu của bạn giống như ví dụ bát trái cây, LDA có thể phù hợp với bạn. Mặt khác, nếu chúng giống như ví dụ về cửa hàng tạp hóa, bạn có thể thử mô hình hỗn hợp hữu hạn Poisson . Đó là, bạn có thể sử dụng mô hình hỗn hợp với các bản phân phối khác với Gaussian / bình thường. GMM là phổ biến nhất cho đến nay; các bản phân phối khác (như Poisson) thì kỳ lạ hơn. Tôi không biết chúng được triển khai rộng rãi như thế nào trong phần mềm. Nếu bạn sử dụng R, Googling đã dẫn đến việc phát hiện ra ? PoisMixClus trong gói HTSCluster và gói rebmix (lưu ý tôi chưa bao giờ sử dụng hoặc thực hiện mô hình hỗn hợp Poisson). Có thể tìm thấy các triển khai cho phần mềm khác.


Thêm một số chi tiết cụ thể: Tôi muốn nói rằng LDA ít nhất là một kỹ thuật Bayes như GMM.

  1. Tôi nghi ngờ sự khác biệt quan trọng nhất giữa LDA và GMM là loại dữ liệu mà họ cho là bạn có.
  2. Bạn không thể so sánh chúng, vì chúng dành cho các loại dữ liệu khác nhau. (Tôi cũng không thực sự muốn so sánh LDA và Poisson MM, vì họ khái niệm hóa các số khác nhau.)

Tôi sẽ không phân đôi dữ liệu của bạn thành không / không khác không.


168 biến số hoạt động của người dùng này được tính trong một tuần, khi thực sự chúng tôi có vài tuần dữ liệu cho mỗi người dùng. Nếu chúng tôi lấy trung bình của hơn 30 tuần dữ liệu đếm và sử dụng dữ liệu này để phân cụm - điều đó có tạo ra sự khác biệt không? Dựa trên hiểu biết của tôi về CLT, các biến dựa trên giá trị trung bình sẽ được phân phối bình thường và do đó duy trì yêu cầu cho GMM.
cướp biển

1
Có nghĩa là từ phân phối với N lớn nên bình thường. Tôi nghĩ bạn có thể sử dụng GMM sau đó.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.