Phân tích lớp tiềm ẩn so với phân tích cụm - sự khác biệt trong suy luận?


30

Sự khác biệt trong suy luận có thể được thực hiện từ phân tích lớp tiềm ẩn (LCA) so với phân tích cụm là gì? Có đúng không khi LCA giả định một biến tiềm ẩn tiềm ẩn làm phát sinh các lớp, trong khi phân tích cụm là một mô tả thực nghiệm về các thuộc tính tương quan từ thuật toán phân cụm? Dường như trong các ngành khoa học xã hội, LCA đã trở nên phổ biến và được coi là vượt trội về mặt phương pháp vì nó có một bài kiểm tra ý nghĩa chi bình phương chính thức, điều mà phân tích cụm không làm được.

Sẽ thật tuyệt nếu các ví dụ có thể được cung cấp dưới dạng, "LCA sẽ phù hợp với điều này (nhưng không phải phân tích cụm) và phân tích cụm sẽ phù hợp với điều này (nhưng không phải là phân tích lớp tiềm ẩn).

Cảm ơn! Brian


1
Bạn gọi cái gì inferencestrong bối cảnh này và tại sao chỉ có sự khác biệt trong suy luận khiến bạn quan tâm?
ttnphns

1
@ttnphns Theo suy luận, ý tôi là sự giải thích thực chất của kết quả. Tôi không chắc về phần sau của câu hỏi của bạn về mối quan tâm của tôi về "chỉ khác biệt trong suy luận?" Tôi không quan tâm đến việc thực hiện các thuật toán tương ứng của họ hoặc toán học cơ bản. Tôi quan tâm đến cách kết quả sẽ được giải thích.
Brian P

Câu trả lời:


27

Phân tích lớp tiềm ẩn trên thực tế là một mô hình hỗn hợp hữu hạn (xem tại đây ). Sự khác biệt chính giữa FMM và các thuật toán phân cụm khác là FMM cung cấp cho bạn cách tiếp cận "phân cụm dựa trên mô hình" để tạo ra các cụm sử dụng mô hình xác suất mô tả phân phối dữ liệu của bạn. Vì vậy, thay vì tìm các cụm với một số thước đo khoảng cách được chọn tùy ý, bạn sử dụng mô hình mô tả phân phối dữ liệu của mình và dựa trên mô hình này, bạn đánh giá xác suất rằng các trường hợp nhất định là thành viên của các lớp tiềm ẩn nhất định. Vì vậy, bạn có thể nói rằng đó là cách tiếp cận từ trên xuống (bạn bắt đầu bằng việc mô tả phân phối dữ liệu của mình) trong khi các thuật toán phân cụm khác là cách tiếp cận từ dưới lên (bạn tìm thấy sự tương đồng giữa các trường hợp).

Bởi vì bạn sử dụng một mô hình thống kê để lựa chọn mô hình dữ liệu của bạn và đánh giá mức độ phù hợp là có thể - trái với phân cụm. Ngoài ra, nếu bạn cho rằng có một số quy trình hoặc "cấu trúc tiềm ẩn" làm cơ sở cho cấu trúc dữ liệu của bạn thì FMM dường như là một lựa chọn thích hợp vì chúng cho phép bạn mô hình hóa cấu trúc tiềm ẩn đằng sau dữ liệu của bạn (thay vì chỉ tìm kiếm sự tương đồng).

Sự khác biệt khác là FMM linh hoạt hơn so với phân cụm. Các thuật toán phân cụm chỉ thực hiện phân cụm, trong khi có các mô hình dựa trên FMM và LCA

  • cho phép bạn thực hiện xác nhận, phân tích giữa các nhóm,
  • kết hợp các mô hình Lý thuyết đáp ứng vật phẩm (và các mô hình khác) với LCA,
  • bao gồm các đồng biến để dự đoán thành viên lớp tiềm ẩn của cá nhân,
  • và / hoặc thậm chí các mô hình hồi quy trong cụm trong hồi quy lớp tiềm ẩn ,
  • cho phép bạn mô hình hóa các thay đổi theo thời gian trong cấu trúc dữ liệu của bạn, v.v.

Để biết thêm ví dụ, xem:

Hagenaars JA & McCutcheon, AL (2009). Phân tích lớp tiềm ẩn ứng dụng. Nhà xuất bản Đại học Cambridge.

và các tài liệu của flexmixpoLCA gói vào R, bao gồm các giấy tờ sau đây:

Linzer, DA, & Lewis, JB (2011). poLCA: Một gói R để phân tích lớp tiềm ẩn biến đa biến. Tạp chí phần mềm thống kê, 42 (10), 1-29.

Leisch, F. (2004). Flexmix: Một khung chung cho các mô hình hỗn hợp hữu hạn và hồi quy kính tiềm ẩn trong R. Tạp chí Phần mềm Thống kê, 11 (8), 1-18.

Grün, B., & Leisch, F. (2008). FlexMix phiên bản 2: hỗn hợp hữu hạn với các biến đồng thời và các tham số khác nhau và không đổi . Tạp chí phần mềm thống kê, 28 (4), 1-35.


3

Một mô hình lớp tiềm ẩn (hoặc hồ sơ tiềm ẩn, hay nói chung hơn là mô hình hỗn hợp hữu hạn) có thể được coi là một mô hình xác suất để phân cụm (hoặc phân loại không giám sát). Mục tiêu nói chung là giống nhau - để xác định các nhóm đồng nhất trong một dân số lớn hơn. Tôi nghĩ rằng sự khác biệt chính giữa các mô hình lớp tiềm ẩn và cách tiếp cận thuật toán để phân cụm là cái trước đây rõ ràng cho vay để suy đoán lý thuyết nhiều hơn về bản chất của phân cụm; và bởi vì mô hình lớp tiềm ẩn là xác suất, nó đưa ra các lựa chọn thay thế khác để đánh giá sự phù hợp của mô hình thông qua thống kê khả năng và nắm bắt tốt hơn / duy trì sự không chắc chắn trong phân loại.

Bạn có thể tìm thấy một số mẩu tin hữu ích trong chủ đề này , cũng như câu trả lời này trên một bài đăng liên quan của chl.

Ngoài ra còn có sự tương đồng (ở mức độ khái niệm) với câu hỏi này về PCA so với phân tích nhân tố, và câu hỏi này cũng vậy.


2

Sự khác biệt là Phân tích lớp tiềm ẩn sẽ sử dụng dữ liệu ẩn (thường là các mẫu liên kết trong các tính năng) để xác định xác suất cho các tính năng trong lớp. Sau đó, suy luận có thể được thực hiện bằng cách sử dụng khả năng tối đa để phân tách các mục thành các lớp dựa trên các tính năng của chúng.

Phân tích cụm vẽ các tính năng và sử dụng các thuật toán như hàng xóm gần nhất, mật độ hoặc phân cấp để xác định một mục thuộc về lớp nào.

Về cơ bản suy luận LCA có thể được coi là "các mẫu tương tự nhất sử dụng xác suất" là gì và phân tích cụm sẽ là "thứ gần nhất sử dụng khoảng cách" là gì.


Bạn có thể làm rõ những gì "điều" đề cập đến trong tuyên bố về phân tích cụm? Đây có phải là 'tính năng' gần nhất dựa trên thước đo khoảng cách không?
Brian P

điều sẽ là đối tượng hoặc bất kỳ dữ liệu nào bạn nhập với các tham số tính năng.
ccsv
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.