Khi tôi khám phá máy học, tôi thấy các kỹ thuật thú vị khác nhau như:
- tự động điều chỉnh các thuật toán với các kỹ thuật như
grid search
, - có được kết quả chính xác hơn thông qua việc kết hợp các thuật toán khác nhau của cùng một "loại", đó là
boosting
, - có được kết quả chính xác hơn thông qua sự kết hợp của các thuật toán khác nhau (nhưng không phải cùng loại thuật toán), đó là
stacking
, - và có lẽ nhiều hơn nữa tôi vẫn phải khám phá ...
Câu hỏi của tôi là như sau: có tất cả những mảnh đó. Nhưng liệu có thể kết hợp chúng lại với nhau để tạo ra một thuật toán lấy dữ liệu được làm sạch đầu vào và cho kết quả tốt bằng cách tận dụng tốt nhất tất cả các kỹ thuật? (Tất nhiên có lẽ sẽ kém hiệu quả hơn một nhà khoa học dữ liệu chuyên nghiệp, nhưng anh ta sẽ giỏi hơn tôi!) Nếu có, bạn có mã mẫu hay bạn có biết các khung có thể làm điều đó không?
EDIT: Sau một số câu trả lời, có vẻ như một số thu hẹp phải được thực hiện. Hãy lấy một ví dụ, chúng ta có một cột với dữ liệu phân loại, hãy gọi nó y
và chúng ta muốn dự đoán nó từ dữ liệu số X
là hình nộm hoặc dữ liệu số thực (chiều cao, nhiệt độ). Chúng tôi giả định làm sạch đã được thực hiện trước đó. Có thuật toán hiện có có thể lấy dữ liệu đó và đưa ra dự đoán không? (bằng cách kiểm tra nhiều thuật toán, điều chỉnh chúng, tăng tốc, v.v.) Nếu có, nó có hiệu quả về mặt tính toán không (các phép tính được thực hiện trong thời gian hợp lý nếu chúng ta so sánh với thuật toán thông thường) và bạn có ví dụ về mã không?
auto.arima
(từ forecast
thư viện) có thể tốt hơn con người - Rob Hyndman đã đề cập nhiều lần trong các bài thuyết trình của mình. Vì vậy, có những lĩnh vực mà một số loại "học tự động" được áp dụng thành công.