Những thuật toán nào trong số 180 thuật toán trong gói caret của R là khả thi?


10

Gói caret của R hoạt động với 180 mẫu. Tác giả cảnh báo rằng một số gói có thể chậm hấp dẫn hoặc kém chính xác hơn các mô hình lựa chọn hàng đầu.

Tác giả không sai về điều này. Tôi đã cố gắng đào tạo người mẫu Boruta và evtree và phải bỏ cuộc sau khi họ chạy> 5 giờ trên một cụm.

Tác giả liên kết đến một tập hợp các tiêu chuẩn học máy , nhưng chúng chỉ bao gồm hiệu suất của một số lượng nhỏ thuật toán, so sánh các triển khai khác nhau.

Có một số tài nguyên khác mà tôi có thể chuyển sang, để được hướng dẫn về mô hình nào trong số 180 mô hình đáng để thử, và nó sẽ rất không chính xác hoặc chậm một cách vô lý?


1
Hoàn toàn phụ thuộc vào dữ liệu của bạn. Những gì đang cố gắng làm, bao nhiêu dữ liệu bạn có và nó trông như thế nào?
stmax

@stmax Điều này đúng. Nó chắc chắn không phụ thuộc một phần vào dữ liệu cụ thể. Nhưng nó cũng hơi khái quát, đó là lý do tại sao họ làm điểm chuẩn ML. Tôi thực sự chỉ đang tìm kiếm một số điểm chuẩn chung. Bất cứ lúc nào tôi cũng có 4 - 5 dự án khác nhau mà tôi đang thực hiện và tôi đang hỏi điều này nhiều hơn để tham khảo chung / tương lai hơn là cho một phân tích cụ thể. Tôi thường xử lý 40.000 - 2.000.000 hàng và thường là khoảng 100 dự đoán. Các biến phụ thuộc đa phương phổ biến nhất.
y0gapants

1
đọc nghiên cứu này trong đó họ so sánh 179 mô hình khác nhau trên 121 bộ dữ liệu. Nó nói về độ chính xác của các mô hình trên các tập dữ liệu, nhưng không quá nhiều về tốc độ.
phiver 17/03/2016

1
@phiver Điều đó rất hữu ích. Tôi có thể xuất bản một cái như thế về tốc độ nếu không ai làm như vậy.
Hack-R

Câu trả lời:


13

Điểm chuẩn mlr (mặc định) người học trên OpenML

Điểm chuẩn Ml của Philipp Probst Các toàn bộ openml cơ sở dữ liệu của ML quả.

Kiểm tra từ RStudio cho thấy SVM.

Mlmastery gợi ý LDATrial and Error .

Chúng ta có cần hàng trăm phân loại để giải quyết các vấn đề phân loại thế giới thực không? bởi Fern andez-Delgado et al.

Bài báo kết luận rừng ngẫu nhiên song song (parRF_t) tốt nhất là rừng ngẫu nhiên, LibSVM với nhân Gaussian (svm), máy học cực đoan với nhân Gaussian, cây quyết định C5.0 và perceptionron nhiều lớp (avNNet).

Các nhóm tăng cường và đóng gói tốt nhất sử dụng LibSVM làm trình phân loại cơ sở (trong Weka), tốt hơn một chút so với trình phân loại LibSVM đơn và adaboost R (tập hợp các cây quyết định được đào tạo bằng Adaboost.M1). Mạng thần kinh xác suất trong Matlab, điều chỉnh sự lan truyền hạt nhân Gaussian (pnn m) và perceptron hạt nhân trực tiếp trong C (dkp C), một mạng lưới thần kinh rất đơn giản và nhanh chóng được đề xuất bởi chúng tôi (Fern ́andez-Delgado et al., 2014) , cũng rất gần với top 20.

Wainer, Jacques (2016) So sánh 14 họ thuật toán phân loại khác nhau trên 115 bộ dữ liệu nhị phân Dựa trên Fernandez-Delgado et al. (2014). "Chúng tôi đã chỉ ra rằng các khu rừng ngẫu nhiên, RBF SVM và các máy tăng cường độ dốc là thuật toán phân loại rất có thể sẽ mang lại độ chính xác cao nhất"

Rich Caruana & Alexandru Niculescu-Mizil () Một so sánh thực nghiệm về các thuật toán học tập được giám sát (phân loại) kết luận với Cây Boosted được hiệu chuẩn Platt như là RF BagT Cal.SVM NN.

Nhiều nghiên cứu khác bao gồm so sánh các mô hình được sử dụng. Một số bài báo thích SVM khác SVM với hạt nhân xuyên tâm hoặc đa thức để phân loại. (có thể điều tương tự)

Từ hồi quy của riêng tôi về dữ liệu được tạo, tôi đề xuất SVMlinear Cubist (MARS).

Luận án Manisha trước tiên chạy thử nghiệm trên Kho lưu trữ học máy của UCI sau đó độ phì nhiêu của đất là trọng tâm của luận án. Các mô hình tốt nhất trên UCI là: "elm-kernel là mạng nơ ron ELM nhưng với nhân Gaussian", "svr là máy vectơ hỗ trợ cho hồi quy, với nhân Gaussian sử dụng thư viện Lib-SVM với giao diện C ++", ExtraTrees và cubist. Luận án bao gồm các mô tả tuyệt vời của từng mô hình và liên kết đến nhiều bài báo hơn. "ExtraTrees đạt được RMSE tốt nhất cho 7 trong 10 vấn đề về đất". Giấy chắc chắn là đáng đọc.


1
Hầu hết các thuật toán cần điều chỉnh cẩn thận các siêu đường kính, thậm chí OLS (chọn tương tác, phi tuyến tính, v.v.) So sánh "mù" sẽ giúp dễ dàng điều chỉnh các thuật toán như rừng ngẫu nhiên.
Michael M

Hoặc các thuật toán phát hiện các tương tác và phi tuyến tính. Đặc biệt là trong các thử nghiệm đồ chơi nhân tạo của tôi. Moba moba lập thể như người mẫu. SVM với hạt nhân tiên tiến quá.
ran8

1
Có các thuật toán tốt để phát hiện các tương tác và tuyến tính cần tinh chỉnh để thực hiện tốt hơn. RF thường không có nhiều chỗ để cải tiến, nhưng những người khác có thể cải thiện nhiều hơn với tinh chỉnh. Là một ví dụ điển hình, bạn có thể lấy xgboost xếp hạng kém trong điểm chuẩn của mình mặc dù được sử dụng rộng rãi để giành chiến thắng trong các cuộc thi kaggle. Một ví dụ khác về những gì các tham số được thiết lập kém sẽ làm: hồi quy bị phạt của bạn hoạt động kém hơn mô hình tuyến tính của bạn ...
lcrmorin
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.