Hiệu suất dự đoán phụ thuộc nhiều vào chuyên môn của nhà phân tích dữ liệu hơn là phương pháp?

Tôi đã bắt gặp một tin đồn rằng một số nghiên cứu cho thấy rằng hiệu suất của các mô hình dự đoán phụ thuộc nhiều vào chuyên môn của nhà phân tích dữ liệu với phương pháp được chọn hơn là lựa chọn phương pháp.
Nói cách khác, tuyên bố là điều quan trọng hơn là nhà phân tích dữ liệu quen thuộc với phương pháp được chọn hơn là phương pháp "phù hợp" có vẻ như thế nào đối với vấn đề từ quan điểm lý thuyết hơn.

Điều này đã được đề cập trong bối cảnh hóa học, bao gồm các vấn đề điển hình của nhiều biến thể (100 - 1000), nhiều cộng tuyến và tất nhiên, quá ít mẫu. Dự đoán có thể đã được phân loại hoặc hồi quy.

Kinh nghiệm cá nhân của tôi cho thấy rằng điều này là hợp lý , nhưng một nghiên cứu đã được đề cập (tôi đã hỏi người đã đề cập rằng qua email sau khi tìm kiếm nhanh nhưng không thành công, nhưng không bao giờ nhận được bất kỳ câu trả lời nào). Tuy nhiên, cũng với một tìm kiếm phức tạp hơn, tôi không thể theo dõi bất kỳ giấy tờ nào.

Có ai biết những phát hiện như vậy? Nếu không, trải nghiệm cá nhân của Big Guys ở đây nói lên điều gì?

predictive-models method-comparison

— cbeleites hỗ trợ Monica
nguồn

Tôi thêm một Little Guy quanh đây, nhưng những gì tôi đã thấy trong Neural Networks hỗ trợ giả thuyết này: xa là một "out of the box" công cụ mà "các máy nghe tin" một cái gì đó, phân loại thành công hay dự đoán dường như phụ thuộc một rất nhiều về cách người thông minh nói với mạng cách học từ dữ liệu - quan trọng nhất là về tiền xử lý dữ liệu, mà còn về mặt kiến trúc mạng, v.v.

— S. Kolassa - Tái lập lại

Tôi nghĩ đó là con số 2.4 từ Các yếu tố của học thống kê nơi họ so sánh các nước láng giềng gần nhất với các phương pháp loại suy thoái (và tất nhiên chúng cũng cung cấp nhiều điểm so sánh trong suốt cuốn sách).

— StasK

@StasK: cảm ơn vì lời nhắc (xấu hổ vì tôi không nhớ). Họ cũng báo cáo rằng trong thực tế PCR, PLS và hồi quy sườn rất giống nhau, và LDA và hồi quy logistic cũng vậy. Tuy nhiên, các phương pháp sau cũng rất giống nhau từ quan điểm lý thuyết.

— cbeleites hỗ trợ Monica

Trên thực tế, tôi đã nghe một tin đồn rằng máy học tập tốt thường tốt hơn các chuyên gia, bởi vì thiên hướng của con người là giảm thiểu phương sai với chi phí sai lệch (oversmooth), dẫn đến hiệu suất dự đoán kém trong bộ dữ liệu mới. Máy được hiệu chuẩn để giảm thiểu MSE, và do đó có xu hướng làm tốt hơn về mặt dự đoán trong bộ dữ liệu mới .

— khách47
nguồn

Theo kinh nghiệm của tôi, chắc chắn đúng là con người có xu hướng quá sức. Tuy nhiên, theo kinh nghiệm của tôi, bạn cũng cần một chuyên gia đàng hoàng, người chọn máy học không quá sức. Nếu không, ai đó chỉ cần chọn một máy học tập trang phục.

— cbeleites hỗ trợ Monica

Nói chung, MSE không bảo vệ quá mức trừ khi bạn hạn chế mô hình rất nhiều - và sau đó chuyên gia lại đến. Tuy nhiên, mọi người cố gắng tối ưu hóa ví dụ như siêu đường kính mô hình. Đặc biệt là các chiến lược tối ưu hóa lặp đi lặp lại quá mức, (MSE hoặc không), trừ khi bạn có thể mua một bộ dữ liệu thử nghiệm độc lập hoàn toàn mới cho mỗi lần lặp. Có lẽ tôi nên nói rằng tôi đến từ một lĩnh vực mà các trường hợp thử nghiệm rất hiếm. Và, trong mọi trường hợp, bạn có thể lập luận rằng đây không phải là một máy học tập tốt .

— cbeleites hỗ trợ Monica