Có thuật toán nào kết hợp phân loại và hồi quy không?


25

Tôi tự hỏi liệu có thuật toán nào có thể thực hiện phân loại và hồi quy cùng một lúc không. Ví dụ, tôi muốn cho thuật toán học một trình phân loại, đồng thời trong mỗi nhãn, nó cũng học một mục tiêu liên tục. Do đó, đối với mỗi ví dụ đào tạo, nó có nhãn phân loại giá trị liên tục.

Tôi có thể đào tạo một trình phân loại trước, và sau đó đào tạo một biến hồi quy trong mỗi nhãn, nhưng tôi chỉ nghĩ rằng nếu có một thuật toán có thể làm cả hai, thì thật tuyệt vời.


Hãy xem Phân vùng đệ quy không thiên vị
adrian1121

@Tim, [finite-fixture-model] (thẻ mà bạn đã sử dụng ở đây) không có đoạn trích. Chăm sóc để cung cấp một?
amip nói rằng Phục hồi lại

Shudong, bạn có nghĩa là "phân loại" hay bạn có nghĩa là "phân cụm"? Bạn đã hỏi về phân loại nhưng sau đó chấp nhận câu trả lời của Tim, đó là về phân cụm.
amip nói phục hồi lại

@amoeba xong, nó không hoàn hảo bởi có lẽ ai đó, một ngày nào đó sẽ cải thiện đoạn trích.
Tim

@amoeba Ý tôi là phân loại. Tims trả lời là một cái gì đó gần gũi. Không có câu trả lời nào khác. Có lẽ tôi nên chờ một chút?
Shudong

Câu trả lời:


35

Vấn đề mà bạn đang mô tả có thể được giải quyết bằng hồi quy lớp tiềm ẩn hoặc hồi quy theo cụm hoặc kết hợp mở rộng của các mô hình tuyến tính tổng quát là tất cả các thành viên của một mô hình hỗn hợp hữu hạn hoặc mô hình lớp tiềm ẩn rộng hơn .

Nó không phải là sự kết hợp giữa phân loại (học có giám sát) và hồi quy theo từng se , mà là phân cụm (học không giám sát) và hồi quy. Cách tiếp cận cơ bản có thể được mở rộng để bạn dự đoán thành viên lớp bằng cách sử dụng các biến đồng thời, điều gì làm cho nó gần hơn với những gì bạn đang tìm kiếm. Trong thực tế, việc sử dụng các mô hình lớp tiềm ẩn để phân loại được mô tả bởi Vermunt và Magidson (2003), người đã đề xuất nó cho mục đích như vậy.

Hồi quy lớp tiềm ẩn

Cách tiếp cận này về cơ bản là một mô hình hỗn hợp hữu hạn (hoặc phân tích lớp tiềm ẩn ) ở dạng

f(yx,ψ)=k=1Kπkfk(yx,ϑk)

trong đó là một vectơ của tất cả các tham số và là các thành phần hỗn hợp được tham số hóa bởi và mỗi thành phần xuất hiện với tỷ lệ tiềm ẩn . Vì vậy, ý tưởng là phân phối dữ liệu của bạn là hỗn hợp của các thành phần , mỗi thành phần có thể được mô tả bằng mô hình hồi quy xuất hiện với xác suất . Các mô hình hỗn hợp hữu hạn rất linh hoạt trong việc lựa chọn các thành phần và có thể được mở rộng sang các dạng và hỗn hợp khác của các loại mô hình khác nhau (ví dụ: hỗn hợp các máy phân tích nhân tố).f k θ k π k K f k π k f kψ=(π,ϑ)fkϑkπkKfkπkfk

Dự đoán xác suất thành viên của lớp dựa trên các biến đồng thời

Mô hình hồi quy lớp tiềm ẩn đơn giản có thể được mở rộng để bao gồm các biến đồng thời dự đoán các thành viên của lớp (Dayton và Mac đã, 1998; xem thêm: Linzer và Lewis, 2011; Grun và Leisch, 2008; McCutcheon, 1987; Hagenaars và McCutcheon, 2009) , trong trường hợp đó mô hình trở thành

f(yx,w,ψ)=k=1Kπk(w,α)fk(yx,ϑk)

trong đó một lần nữa là một vectơ của tất cả các tham số, nhưng chúng tôi cũng bao gồm các biến đồng thời và hàm (ví dụ logistic) được sử dụng để dự đoán tỷ lệ tiềm ẩn dựa trên các biến đồng thời. Vì vậy, trước tiên bạn có thể dự đoán xác suất thành viên của lớp và ước tính hồi quy theo cụm trong một mô hình duy nhất.w π k ( w , α )ψwπk(w,α)

Ưu và nhược điểm

Điều tuyệt vời ở đây là nó là một kỹ thuật phân cụm dựa trên mô hình , điều gì có nghĩa là bạn phù hợp với các mô hình với dữ liệu của mình và các mô hình đó có thể được so sánh bằng các phương pháp khác nhau để so sánh mô hình (kiểm tra tỷ lệ khả năng, BIC, AIC, v.v. ), vì vậy việc lựa chọn mô hình cuối cùng không phải là chủ quan như với phân tích cụm nói chung. Việc giải quyết vấn đề thành hai vấn đề độc lập về phân cụm và sau đó áp dụng hồi quy có thể dẫn đến kết quả sai lệch và ước tính mọi thứ trong một mô hình duy nhất cho phép bạn sử dụng dữ liệu của mình hiệu quả hơn.

Nhược điểm là bạn cần đưa ra một số giả định về mô hình của mình và có một số suy nghĩ về nó, vì vậy đây không phải là phương pháp hộp đen đơn giản sẽ lấy dữ liệu và trả về một số kết quả mà không làm phiền bạn về nó. Với dữ liệu ồn ào và các mô hình phức tạp, bạn cũng có thể gặp các vấn đề về nhận dạng mô hình. Ngoài ra, vì các mô hình như vậy không phổ biến, nên không được triển khai rộng rãi (bạn có thể kiểm tra các gói R tuyệt vời flexmixpoLCA, theo như tôi biết, nó cũng được triển khai trong SAS và Mplus ở một mức độ nào đó), điều khiến bạn phụ thuộc vào phần mềm.

Thí dụ

Dưới đây bạn có thể xem ví dụ về mô hình như vậy từ flexmixthư viện (Leisch, 2004; Grun và Leisch, 2008) kết hợp họa tiết phù hợp của hai mô hình hồi quy với dữ liệu tạo thành.

library("flexmix")
data("NPreg")
m1 <- flexmix(yn ~ x + I(x^2), data = NPreg, k = 2)
summary(m1)
## 
## Call:
## flexmix(formula = yn ~ x + I(x^2), data = NPreg, k = 2)
## 
##        prior size post>0 ratio
## Comp.1 0.506  100    141 0.709
## Comp.2 0.494  100    145 0.690
## 
## 'log Lik.' -642.5452 (df=9)
## AIC: 1303.09   BIC: 1332.775 
parameters(m1, component = 1)
##                      Comp.1
## coef.(Intercept) 14.7171662
## coef.x            9.8458171
## coef.I(x^2)      -0.9682602
## sigma             3.4808332
parameters(m1, component = 2)
##                       Comp.2
## coef.(Intercept) -0.20910955
## coef.x            4.81646040
## coef.I(x^2)       0.03629501
## sigma             3.47505076

Nó được hiển thị trên các ô sau (hình dạng điểm là các lớp thực, màu sắc là phân loại).

Ví dụ về hồi quy lớp tiềm ẩn

Tài liệu tham khảo và tài nguyên bổ sung

Để biết thêm chi tiết, bạn có thể kiểm tra các sách và giấy tờ sau đây:

Wedel, M. và DeSarbo, WS (1995). Một phương pháp tiếp cận khả năng hỗn hợp cho các mô hình tuyến tính tổng quát. Tạp chí phân loại, 12 , 21 Hàng55.

Wedel, M. và Kamakura, WA (2001). Phân khúc thị trường - Cơ sở khái niệm và phương pháp luận. Nhà xuất bản học thuật Kluwer.

Leisch, F. (2004). Flexmix: Một khung chung cho các mô hình hỗn hợp hữu hạn và hồi quy kính tiềm ẩn trong R. Tạp chí Phần mềm Thống kê, 11 (8) , 1-18.

Grun, B. và Leisch, F. (2008). FlexMix phiên bản 2: hỗn hợp hữu hạn với các biến đồng thời và các tham số khác nhau và không đổi. Tạp chí phần mềm thống kê, 28 (1) , 1-35.

McLachlan, G. và Peel, D. (2000). Mô hình hỗn hợp hữu hạn. John Wiley & Sons.

Dayton, CM và Mac sẵn, GB (1988). Các mô hình lớp tiềm ẩn biến đổi đồng thời. Tạp chí của Hiệp hội Thống kê Hoa Kỳ, 83 (401), 173-178.

Linzer, DA và Lewis, JB (2011). poLCA: Một gói R để phân tích lớp tiềm ẩn biến đa biến. Tạp chí phần mềm thống kê, 42 (10), 1-29.

McCutcheon, AL (1987). Phân tích lớp tiềm ẩn. Hiền nhân.

Hagenaars JA và McCutcheon, AL (2009). Phân tích lớp tiềm ẩn ứng dụng. Nhà xuất bản Đại học Cambridge.

Vermunt, JK và Magidson, J. (2003). Mô hình lớp tiềm ẩn để phân loại. Thống kê tính toán & phân tích dữ liệu, 41 (3), 531-537.

Grün, B. và Leisch, F. (2007). Các ứng dụng của hỗn hợp hữu hạn của mô hình hồi quy. họa tiết gói flexmix.

Grün, B., & Leisch, F. (2007). Kết hợp các hỗn hợp hữu hạn của hồi quy tuyến tính tổng quát trong R. Phân tích dữ liệu và thống kê tính toán, 51 (11), 5247-5252.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.