Sự khác biệt thực tế và giải thích giữa các lựa chọn thay thế và hồi quy logistic là gì?

Một câu hỏi gần đây về các lựa chọn thay thế cho hồi quy logistic trong R mang lại nhiều câu trả lời bao gồm RandomForest, gbm, rpart, bayesglm và các mô hình phụ gia tổng quát. Sự khác biệt thực tế và giải thích giữa các phương pháp này và hồi quy logistic là gì? Những giả định nào họ đưa ra (hoặc không thực hiện) liên quan đến hồi quy logistic? Là phù hợp để kiểm tra giả thuyết? Vân vân.

r hypothesis-testing logistic random-forest

— russellpierce
nguồn

Tuyên bố miễn trừ trách nhiệm: Chắc chắn không phải là một câu trả lời đầy đủ cho câu hỏi!

Tôi nghĩ có ít nhất hai cấp độ cần xem xét trước khi thiết lập sự khác biệt giữa tất cả các phương pháp như vậy:

cho dù một mô hình duy nhất có phù hợp hay không: Điều này giúp các phương pháp đối lập như hồi quy logistic so với RF hoặc Gradient Boosting (hay nói chung là các phương thức của Makeemble ), và cũng nhấn mạnh vào ước lượng tham số (với các khoảng tin cậy không đối xứng hoặc bootstrap) so với phân loại hoặc dự đoán tính toán chính xác;
cho dù tất cả các biến có được xem xét hay không: Đây là cơ sở của lựa chọn tính năng, theo nghĩa là hình phạt hoặc chính quy hóa cho phép đối phó với các tập dữ liệu "bất thường" (ví dụ: lớn và / hoặc nhỏ ) và cải thiện tính tổng quát của các phát hiện. $p$ $n$

Dưới đây là một vài điểm khác mà tôi nghĩ có liên quan đến câu hỏi.

Trong trường hợp chúng tôi xem xét một số mô hình - cùng một mô hình được trang bị trên các tập hợp con khác nhau (cá nhân và / hoặc biến) của dữ liệu có sẵn hoặc các mô hình cạnh tranh khác nhau được trang bị trên cùng một bộ dữ liệu--, có thể sử dụng xác thực chéo để tránh quá mức và thực hiện lựa chọn mô hình hoặc tính năng, mặc dù CV không giới hạn trong các trường hợp cụ thể này ( ví dụ: nó có thể được sử dụng với GAM hoặc GLM bị phạt). Ngoài ra, có vấn đề giải thích truyền thống: các mô hình phức tạp hơn thường bao hàm sự diễn giải phức tạp hơn (nhiều tham số hơn, các giả định nghiêm ngặt hơn, v.v.).

Gradient thúc đẩy và RFS khắc phục những hạn chế của một cây quyết định duy nhất, nhờ Đẩy mạnh mà ý chính là kết hợp đầu ra của nhiều thuật toán học yếu để xây dựng một quy tắc quyết định chính xác hơn và ổn định, và đóng bao , nơi chúng tôi "trung bình" Kết quả trên bộ dữ liệu được ghép lại. Nhìn chung, chúng thường được xem như một số loại hộp đen so với các mô hình "cổ điển" hơn trong đó các thông số kỹ thuật rõ ràng cho mô hình được cung cấp (tôi có thể nghĩ về ba loại mô hình: parameteric , bán tham số , không tham số ), nhưng Tôi nghĩ rằng các cuộc thảo luận được tổ chức theo chủ đề khác Hai nền văn hóa: thống kê so với học máy? cung cấp quan điểm thú vị.

Dưới đây là một vài bài viết về lựa chọn tính năng và một số kỹ thuật ML:

Saeys, Y, Inza, I và Larrañaga, P. Một đánh giá về các kỹ thuật lựa chọn tính năng trong tin sinh học , Tin sinh học (2007) 23 (19): 2507-2517.
Dougherty, ER, Hua J và Sima, C. Hiệu suất của các phương pháp lựa chọn tính năng , Genomics hiện tại (2009) 10 (6): 365 Tiết374.
Boulesteix, AL và Strobl, C. Lựa chọn phân loại tối ưu và sai lệch âm trong ước tính tỷ lệ lỗi: một nghiên cứu thực nghiệm về dự đoán chiều cao , BMC Phương pháp nghiên cứu y học (2009) 9:85.
Caruana, R và Niculescu-Mizil, A. Một so sánh thực nghiệm về các thuật toán học tập được giám sát . Kỷ yếu hội thảo quốc tế lần thứ 23 về học máy (2006).
Friedman, J, Hastie, T, và Tibshirani, R. Hồi quy logistic phụ gia: Một quan điểm thống kê về việc thúc đẩy , Ann. Thống kê. (2000) 28 (2): 337-407. (Có thảo luận)
Olden, JD, Lawler, JJ và Poff, NL. Phương pháp học máy không có nước mắt: một mồi cho các nhà sinh thái học , Q Rev Biol. (2008) 83 (2): 171-93.

Và tất nhiên, Các yếu tố của học thống kê , bởi Hastie và coll., Có đầy đủ các hình ảnh minh họa và tài liệu tham khảo. Ngoài ra hãy chắc chắn kiểm tra Hướng dẫn khai thác dữ liệu thống kê , từ Andrew Moore.

— chl
nguồn