Mô hình hóa lớp tiềm ẩn sẽ là một, phương pháp học tập có giám sát để tìm các phân vùng hoặc nhóm "ẩn" tiềm ẩn hoặc nhóm người sử dụng ma túy. LC là một phương pháp rất linh hoạt với hai cách tiếp cận rộng: sao chép dựa trên các biện pháp lặp đi lặp lại cho một chủ đề duy nhất so với sao chép dựa trên phân loại chéo một tập hợp các biến phân loại. Dữ liệu của bạn sẽ phù hợp với loại thứ hai.
Tính linh hoạt của LC là một chức năng của khả năng hấp thụ "hỗn hợp" các biến có tỷ lệ khác nhau (ví dụ: phân loại hoặc liên tục). Vì cách tiếp cận tìm thấy các phân vùng, phân đoạn hoặc cụm ẩn trong dữ liệu, nên nó cũng có thể được coi là một kỹ thuật giảm kích thước.
Tất cả các mô hình LC có 2 giai đoạn: trong giai đoạn 1, một biến phụ thuộc hoặc biến đích được xác định và mô hình hồi quy được xây dựng. Trong giai đoạn 2, phần dư (một vectơ "tiềm ẩn") từ mô hình giai đoạn 1 được phân tích và các phân vùng được tạo ra nắm bắt sự biến đổi (hoặc không đồng nhất) - "các lớp tiềm ẩn" - trong vectơ đó.
Phần mềm miễn phí hiện có để tải xuống có thể sẽ hoạt động khá tốt cho bạn. Một trong số đó là một mô-đun R được gọi là polCA có sẵn ở đây:
http://www.jstatsoft.org/article/view/v042i10
Nếu bạn có khoảng 1.000 đô la để chi tiêu cho một sản phẩm thương mại, Latent Gold có sẵn từ www.statisticinnovations.com Đã sử dụng trên Vàng tiềm ẩn trong nhiều năm, tôi là một fan hâm mộ lớn của sản phẩm đó vì sức mạnh phân tích và phạm vi giải pháp. Chẳng hạn, polCA chỉ hữu ích cho các mô hình LC có thông tin phân loại trong khi LG hoạt động trên bảng ... cộng với, các nhà phát triển của họ luôn thêm các mô-đun mới. Bổ sung gần đây nhất xây dựng các mô hình LC sử dụng chuỗi Markov ẩn. Nhưng hãy nhớ rằng LG không phải là một nền tảng dữ liệu "đầu cuối", nghĩa là, nó không tốt cho việc thao tác hoặc nâng dữ liệu nặng.
Mặt khác, có rất nhiều cách tiếp cận khác để phân tích thông tin phân loại được hỗ trợ rộng rãi bởi các phần mềm thống kê như R, SPSS, SAS, Python, v.v. Chúng bao gồm phân tích bảng dự phòng, mô hình log-linear, mô hình hỗn hợp hữu hạn, hồi quy kéo căng Bayesian, và như thế. Tài liệu trong lĩnh vực này rất phong phú và bắt đầu với Giám mục, và cộng sự, Phân tích đa biến rời rạc năm 1975, mở rộng thông qua các mô hình RC của Leo Goodman dựa trên công trình của ông được thực hiện từ thập niên 80, Phân tích dữ liệu phân loại của Agresti , sách của Stephen Fienberg và bao gồm Thomas Wickens 'cuốn sách tuyệt vời Phân tích các bảng dự phòng đa ngành cho các ngành khoa học xã hội xuất bản năm 1989. Hồi quy kéo căng Bayesian là tiêu đề của một bài báo của David Dunson tại Duke và là một loại "công nghệ tiên tiến" trong việc trở thành một phương pháp rất gần đây để mô hình hóa các bảng dự phòng đa chiều.