Làm thế nào để học máy đa biến? (dự đoán nhiều biến phụ thuộc)


9

Tôi đang tìm kiếm để dự đoán các nhóm mặt hàng mà ai đó sẽ mua ... tức là tôi có nhiều biến phụ thuộc nhiều màu.

Thay vì xây dựng 7 mô hình độc lập để dự đoán xác suất ai đó mua mỗi trong số 7 mặt hàng và sau đó kết hợp các kết quả, tôi nên xem xét phương pháp nào để có một mô hình tính đến mối quan hệ giữa 7 biến phụ thuộc, liên quan ( những thứ họ có thể mua).

Tôi đang sử dụng R làm ngôn ngữ lập trình, vì vậy mọi lời khuyên cụ thể về R đều được đánh giá cao.

Câu trả lời:


7

Dựa trên mô tả của bạn, nó xuất hiện một hồi quy logistic đa thức là phù hợp. Giả sử kết quả của bạn là một yếu tố với 7 cấp độ (một trong 7 tùy chọn mua), sau đó bạn có thể nhanh chóng dự đoán thành viên bằng mô hình hồi quy logistic đa phương thức (xem ?multinomtrong nnetgói trong R). Nếu kết quả của bạn không thể được kết hợp thành một yếu tố với 7 cấp độ, thì sẽ cần phân tích cụm để nhóm các mục lại với nhau trước khi thực hiện hồi quy logistic đa phương.


Nó không phải là hồi quy đa cực. Tôi có 7 sản phẩm khác nhau, mỗi sản phẩm có tới 4 yếu tố .... có dâu tây, và các loại dâu tây, sau đó là sữa và các loại sữa khác nhau, táo và các loại táo khác nhau, và tôi cần dự đoán đúng giỏ hàng ... vì vậy táo xanh với dâu tây được trồng, với 2% sữa, v.v.,
blast00

1
Tôi có giải pháp của bạn! Tôi muốn đề xuất phân tích lớp tiềm ẩn polytomous, trong đó kết quả là một tập hợp các yếu tố được giả định để nhóm trong một hoặc nhiều lớp tiềm ẩn. Tư cách thành viên trong các lớp này được dự đoán dựa trên hồi quy logistic đa thức. Xem ?poLCAtrong R để biết thêm thông tin về việc lắp mô hình này.
thống kêRus

Tôi đang đọc qua điều này - cảm ơn bạn thống kêRus. Phải có những cách khác mặc dù.
blast00

Cụ thể, phương pháp học máy, vì tôi không cần phải phù hợp với phân phối xác suất / tôi ổn với mô hình hộp đen
blast00

Hãy nhớ rằng rất nhiều mô hình thống kê trên thực tế là các mô hình học máy không giám sát - nhưng bạn nói đúng, chúng ta thường quan tâm đến các đầu vào với các mô hình này. Đối với học máy có giám sát với nhiều đầu vào và kết quả (và chất lượng hộp đen), tôi đề xuất các mạng thần kinh (tính ?nnetbằng R).
thống kêRus

5

Bạn có thể xây dựng một khu rừng ngẫu nhiên trong đó mỗi lớp của bạn là một nhóm các mặt hàng (tức là "táo xanh với dâu tây trồng, với 2% sữa"). Sau đó, dựa trên các đặc điểm của người mua hàng hoặc bất kể người dự đoán của bạn là gì, bạn có thể cung cấp xác suất mua dự đoán cho từng nhóm mặt hàng. Tôi sẽ sử dụng gói RandomForest của R ( https://cran.r-project.org/web/packages/randomForest/index.html ) để làm điều này.


3

Một lựa chọn là có được tần suất của tất cả các kết hợp mua sản phẩm; chọn một vài kết hợp phổ biến nhất; sau đó xây dựng mô hình hồi quy để dự đoán kết hợp đã chọn của từng cá nhân. Ví dụ, với hồi quy logistic nhị phân, bạn có thể dự đoán được việc mua một) Rượu vang trắng, Brie, Dâu tây và Nho so với b) Rượu vang đỏ, Cheddar và Gouda. Với hơn 2 kết hợp như vậy hoặc nếu bạn muốn bao gồm danh mục "không có gì ở trên", hồi quy logistic đa thức có lẽ sẽ là phương pháp được lựa chọn.

Lưu ý rằng chỉ bao gồm các combo thông thường có nghĩa là bạn sẽ có số lượng khả thi hơn của mỗi loại nhưng bạn sẽ loại trừ những cái khác, ít nhất là từ quy trình này. Tôi có thể tưởng tượng 7 vật phẩm tạo ra hàng tá combo mỗi thứ được chọn bởi ít nhất một vài người. Đây có thể là quá nhiều danh mục cho kích thước mẫu của bạn. Hơn nữa, nếu một kết hợp được chọn bởi chỉ một vài người, mô hình của bạn sẽ có rất ít thông tin để làm việc.

Một lựa chọn khác là sử dụng phân tích cụm để đến một vài bộ vật phẩm có xu hướng được mua cùng nhau. Với 7 mục, có thể bạn sẽ kết thúc với ít hơn 4 cụm, điều này có thể giúp công việc của bạn dễ dàng hơn. Nếu bạn thử phân tích cụm và thấy kết quả không khả thi, không có lý do gì bạn phải sử dụng chúng: chỉ cần quay lại cách tiếp cận dựa trên tần suất được mô tả ở trên. Trong trường hợp này, nếu tôi đọc đúng, bạn đang tìm kiếm một loạt các danh mục mô tả và thú vị nhất, và khi thiết lập điều đó, bạn không cần phải lo lắng về mức độ tự do hoặc so sánh nhiều hoặc bất kỳ mối quan tâm nào có thể áp dụng nếu bạn đã thử nhiều phương pháp để thực hiện một số thử nghiệm suy luận.


Cảm ơn đề nghị này. Phải có phương pháp học máy đa biến mặc dù. Tương tự như cách bạn có thể có 2 biến phụ thuộc trong mô hình hồi quy "dễ dàng hơn" .. và bạn chỉ cần thực hiện lm (y + z ~ ...) .. Tôi nghĩ rằng ..
blast00

0

Tôi giả sử rằng bạn muốn phân tích tình huống tương tự như sau;

Yi = f (X), trong đó f () là một liên kết phi tuyến tính và X là một vectơ đồng biến và Yi là biến phụ thuộc thứ i, có tính chất thứ tự (nếu đó là Yi không thể phân loại có nhiều hơn hai các danh mục) và nói trong mô hình của bạn i = 1, 2, ... 5 và mỗi Yi đều tương quan ... Nếu vậy, bạn chắc chắn có thể sử dụng Probit đa biến. R, Mplus và SAS có thể ước tính MVP

Ngược lại, bạn có Y = f (X) và Y (chú ý chỉ có một Y) là phân loại và ví dụ, có N loại để các lựa chọn trong danh mục N là độc quyền và toàn diện; bạn cần phải phù hợp với mô hình Multitomial Logit. Có một cái gì đó được gọi là probit multinomial, simialr để multitomial Logit.

Hi vọng điêu nay co ich. Cảm ơn Sanjoy

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.