Câu hỏi này có thể quá mở để có câu trả lời dứt khoát, nhưng hy vọng là không.
Các thuật toán học máy, chẳng hạn như SVM, GBM, Rừng ngẫu nhiên, v.v., thường có một số tham số miễn phí, ngoài một số quy tắc hướng dẫn ngón tay cái, cần phải được điều chỉnh theo từng bộ dữ liệu. Điều này thường được thực hiện với một số loại kỹ thuật lấy mẫu lại (bootstrap, CV, v.v.) để phù hợp với tập hợp các tham số đưa ra lỗi tổng quát hóa tốt nhất.
Câu hỏi của tôi là, bạn có thể đi quá xa ở đây? Mọi người nói về việc thực hiện tìm kiếm lưới như vậy, nhưng tại sao không đơn giản coi đây là một vấn đề tối ưu hóa và đi sâu vào tập hợp các tham số tốt nhất có thể? Tôi đã hỏi về một số cơ chế của vấn đề này trong câu hỏi này , nhưng nó đã không nhận được nhiều sự chú ý. Có thể câu hỏi đã được hỏi rất tệ, nhưng có lẽ chính câu hỏi đó thể hiện một cách tiếp cận tồi tệ mà mọi người thường không làm?
Điều làm phiền tôi là sự thiếu chính quy. Tôi có thể tìm thấy bằng cách lấy mẫu lại rằng số cây tốt nhất để tăng trong GBM cho tập dữ liệu này là 647 với độ sâu tương tác là 4, nhưng tôi có thể chắc chắn rằng điều này sẽ đúng với dữ liệu mới (giả sử dân số mới có giống với tập huấn luyện không)? Không có giá trị hợp lý để 'thu nhỏ' thành (hoặc nếu bạn muốn, không có thông tin trước thông tin) lấy mẫu lại có vẻ như là cách tốt nhất chúng ta có thể làm. Tôi chỉ không nghe thấy bất kỳ cuộc nói chuyện nào về việc này, vì vậy nó khiến tôi tự hỏi liệu có điều gì tôi đang thiếu.
Rõ ràng có một chi phí tính toán lớn liên quan đến việc thực hiện nhiều lần lặp để vắt kiệt sức mạnh dự đoán cuối cùng của một mô hình, vì vậy rõ ràng đây là điều bạn sẽ làm nếu bạn có thời gian / tối ưu để thực hiện tối ưu hóa và từng chút một cải thiện hiệu suất là có giá trị.