Sự khác biệt giữa hồi quy logistic ngẫu nhiên và hồi quy logistic Plain-Vanilla


12

Tôi muốn biết sự khác biệt giữa Hồi quy logistic ngẫu nhiên (RLR) và hồi quy logistic đơn giản (LR), do đó, tôi đang đọc một bài báo "Lựa chọn ổn định" của Meinshausen, et al. ; tuy nhiên tôi không hiểu RLR là gì và sự khác biệt giữa RLR và LR là gì.

Ai đó có thể chỉ ra những gì tôi nên đọc để hiểu RLR? Hoặc có một ví dụ đơn giản để bắt đầu?


1
RLR không phải là một thuật ngữ tiêu chuẩn. Hãy xác định phương pháp.
Frank Harrell

Cảm ơn bạn @FrankHarrell ... Phương pháp này đến từ một thư viện tìm hiểu scikit .
Hendra Bunyamin

Bây giờ có một trang web trao đổi ngăn xếp mới cho máy học / Dữ liệu lớn, có lẽ câu hỏi này thuộc về đó.
Placidia

4
@Placidia Đó là một gợi ý tốt. Tuy nhiên, câu trả lời của riêng bạn cho thấy lý do tại sao câu hỏi này thuộc về chúng tôi: chúng tôi có thể cung cấp một quan điểm cân bằng, đặc trưng chính xác và so sánh cả hai khía cạnh thống kê và ML của câu hỏi. Mặc dù có thể ai đó trên trang web "khoa học dữ liệu" có thể đóng góp câu trả lời như vậy, nhưng kinh nghiệm của tôi ở đó là không thể xảy ra.
whuber

3
Tôi choáng váng rằng trang web mới được gọi là khoa học dữ liệu, chiếm hơn một nửa số liệu thống kê, đó là những gì trang web này nói về.
Frank Harrell

Câu trả lời:


17

Bạn có thể muốn kiểm tra tài liệu tham khảo này . Sci-kit tìm hiểu thực hiện hồi quy logistic ngẫu nhiên và phương pháp được mô tả ở đó.

Nhưng để trả lời câu hỏi của bạn, hai phương pháp khác nhau chủ yếu trong mục tiêu của họ. Hồi quy logistic là về việc phù hợp với một mô hình và RLR là về việc tìm các biến đi vào mô hình.

Hồi quy logistic Vanilla là một mô hình tuyến tính tổng quát. Đối với phản hồi nhị phân, chúng tôi cho rằng tỷ lệ cược log của xác suất phản hồi là hàm tuyến tính của một số dự đoán. Các hệ số của các yếu tố dự đoán được ước tính bằng khả năng tối đa và suy luận về các tham số sau đó dựa trên các thuộc tính mẫu lớn của mô hình. Để có kết quả tốt nhất, chúng tôi thường cho rằng mô hình khá đơn giản và được hiểu rõ. Chúng tôi biết những gì các biến độc lập tác động đến phản ứng. Chúng tôi muốn ước tính các tham số của mô hình.

Tất nhiên, trong thực tế, chúng ta không phải lúc nào cũng biết những biến nào nên được đưa vào mô hình. Điều này đặc biệt đúng trong các tình huống học máy trong đó số lượng các biến giải thích tiềm năng là rất lớn và giá trị của chúng rất ít.

Trong những năm qua, nhiều người đã cố gắng sử dụng các kỹ thuật phù hợp với mô hình thống kê cho mục đích lựa chọn biến (đọc "tính năng"). Trong mức độ tin cậy ngày càng tăng:

  1. Phù hợp với một mô hình lớn và thả các biến với số liệu thống kê Wald không đáng kể. Không phải lúc nào cũng tạo ra mô hình tốt nhất.
  2. Nhìn vào tất cả các mô hình có thể và chọn "tốt nhất". Tính toán chuyên sâu và không mạnh mẽ.
  3. Phù hợp với mô hình lớn với thời hạn hình phạt L1 (phong cách lasso). Biến vô dụng được thả trong phù hợp. Tốt hơn, nhưng không ổn định với ma trận thưa thớt.
  4. Phương pháp ngẫu nhiên 3. Lấy các tập con ngẫu nhiên, ghép một mô hình bị phạt cho từng mô hình và đối chiếu kết quả. Các biến xuất hiện thường xuyên được chọn. Khi phản hồi là nhị phân, đây là hồi quy logistic ngẫu nhiên. Một kỹ thuật tương tự có thể được kéo với dữ liệu liên tục và mô hình tuyến tính nói chung.

1
+1 Rất vui khi thấy một khảo sát rõ ràng, dễ đọc, rõ ràng như vậy về một phương pháp chung.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.