Tôi nghĩ rằng sẽ rất đáng để thử dùng Rừng ngẫu nhiên ( RandomForest ); một số tài liệu tham khảo đã được cung cấp để trả lời các câu hỏi liên quan: Lựa chọn tính năng cho mô hình cuối cùng của Cameron khi thực hiện xác nhận chéo trong học máy ; Mô hình GIỎ HÀNG có thể được thực hiện mạnh mẽ? . Tăng / đóng bao làm cho chúng ổn định hơn một GIỎ đơn được biết là rất nhạy cảm với các nhiễu loạn nhỏ. Một số tác giả lập luận rằng nó đã thực hiện cũng như các máy SVM hoặc Gradient Boosting bị phạt (xem, ví dụ Cutler et al., 2009). Tôi nghĩ rằng họ chắc chắn vượt trội so với NN.
Boulesteix và Strobl cung cấp một cái nhìn tổng quan tuyệt vời về một số phân loại trong lựa chọn phân loại tối ưu và sai lệch âm trong ước tính tỷ lệ lỗi: một nghiên cứu thực nghiệm về dự đoán chiều cao (BMC MRM 2009 9: 85). Tôi đã nghe nói về một nghiên cứu tốt khác tại cuộc họp EAM IV , cần được xem xét trong Thống kê trong Y học ,
João Maroco , Dina Silva, Manuela Guerreiro, Alexandre de Mendonça. Các khu rừng ngẫu nhiên có làm tốt hơn các mạng thần kinh, các máy vectơ hỗ trợ và các phân loại phân tích phân biệt đối xử không? Một nghiên cứu trường hợp trong sự tiến hóa đến mất trí nhớ ở bệnh nhân cao tuổi với khiếu nại nhận thức
Tôi cũng thích gói caret : nó được ghi chép tốt và cho phép so sánh độ chính xác dự đoán của các phân loại khác nhau trên cùng một tập dữ liệu. Nó đảm nhiệm việc quản lý các mẫu đào tạo / kiểm tra, tính chính xác của máy tính, vv trong một số chức năng thân thiện với người dùng.
Các glmnet gói, từ Friedman và coll., Dụng cụ bị phạt GLM (xem xét trong Journal of Phần mềm thống kê ), vì vậy bạn vẫn ở trong khuôn khổ mô hình nổi tiếng.
Mặt khác, bạn cũng có thể tìm kiếm các trình phân loại dựa trên quy tắc kết hợp (xem Chế độ xem tác vụ CRAN trên Machine Learning hoặc 10 thuật toán hàng đầu trong khai thác dữ liệu để giới thiệu nhẹ nhàng về một số trong số chúng).
Tôi muốn đề cập đến một cách tiếp cận thú vị khác mà tôi dự định thực hiện lại trong R (thực ra, đó là mã Matlab), đó là Phân tích tương ứng phân biệt đối xử từ Hervé Abdi. Mặc dù ban đầu được phát triển để đối phó với các nghiên cứu mẫu nhỏ với rất nhiều biến giải thích (cuối cùng được nhóm thành các khối kết hợp), nó dường như kết hợp hiệu quả DA cổ điển với các kỹ thuật giảm dữ liệu.
Tài liệu tham khảo
- Cutler, A., Cutler, DR và Stevens, JR (2009). Phương pháp dựa trên cây , trong phân tích dữ liệu chiều cao trong nghiên cứu ung thư , Li, X. và Xu, R. (chủ biên), trang 83-101, Springer.
- Saeys, Y., Inza, I. và Larrañaga, P. (2007). Một đánh giá về các kỹ thuật lựa chọn tính năng trong tin sinh học . Tin sinh học, 23 (19): 2507-2517.