Đây có phải là trạng thái của phương pháp hồi quy nghệ thuật?


33

Tôi đã theo dõi các cuộc thi của Kaggle trong một thời gian dài và tôi nhận ra rằng nhiều chiến lược chiến thắng liên quan đến việc sử dụng ít nhất một trong số "ba lô lớn": đóng gói, tăng cường và xếp chồng.

Đối với hồi quy, thay vì tập trung vào xây dựng một mô hình hồi quy tốt nhất có thể, việc xây dựng nhiều mô hình hồi quy như hồi quy tuyến tính (Tổng quát hóa), mô hình hồi quy ngẫu nhiên, KNN, NN và SVM và trộn các kết quả thành một cách hợp lý dường như không phù hợp - phù hợp với từng phương pháp riêng lẻ rất nhiều lần.

Tất nhiên, một sự hiểu biết vững chắc về từng phương pháp là chìa khóa và một câu chuyện trực quan có thể được kể dựa trên mô hình hồi quy tuyến tính, nhưng tôi tự hỏi liệu điều này có trở thành trạng thái của phương pháp nghệ thuật để đạt được kết quả tốt nhất có thể.


Trong một số trường hợp, Mạng nơ-ron xác định rõ cách đánh bại cách thức "cổ điển" để thực hiện hồi quy. Ví dụ, trong mưa bao nhiêu II . Nhưng nó chắc chắn là một hộp đen.
YCR

@YCR Tôi đồng ý đó là hộp đen. Trong khi làm việc, tôi đã xây dựng một số mô hình học máy tuyệt vời và cố gắng giải thích cho những người kinh doanh hoặc một người không quen thuộc với mô hình đó, cuộc trò chuyện thường kết thúc như thế này: Tôi đã xây dựng một mô hình Machine Learning tuyệt vời, Nó hoạt động như ma thuật, nhưng Tôi không thể kể cho bạn một câu chuyện thú vị.
Maxareo

Câu trả lời:


41

Nó là nổi tiếng, ít nhất là từ cuối năm 1960, rằng nếu bạn mất vài dự báo trung bình họ, sau đó kết quả dự báo tổng hợp trong nhiều trường hợp sẽ làm tốt hơn dự báo cá nhân. Đóng gói, tăng cường và xếp chồng đều chính xác dựa trên ý tưởng này. Vì vậy, có, nếu mục đích của bạn hoàn toàn là dự đoán thì trong hầu hết các trường hợp, đây là điều tốt nhất bạn có thể làm. Vấn đề của phương pháp này là cách tiếp cận hộp đen trả về kết quả nhưng không giúp bạn hiểu và giải thích nó. Rõ ràng, nó cũng chuyên sâu về mặt tính toán hơn bất kỳ phương pháp nào khác vì bạn phải tính toán một vài dự báo thay vì một phương pháp duy nhất.

Điều này liên quan đến bất kỳ dự đoán nào nói chung, nhưng nó thường được mô tả trong tài liệu dự báo.


Nháy mắt, RL. và Makridakis, S. (1983). Sự kết hợp của các dự báo. Tượng đài JR. Sóc. A. 146 (2), 150-157.

Makridakis, S. và Winkler, RL (1983). Trung bình của dự báo: Một số kết quả thực nghiệm. Khoa học quản lý, 29 (9) 987-996.

Clemen, RT (1989). Kết hợp dự báo: Một đánh giá và thư mục chú thích. Tạp chí quốc tế dự báo, 5, 559-583.

Bates, JM và Granger, CW (1969). Sự kết hợp của các dự báo. Hoặc, 451-468.

Makridakis, S. và Hibon, M. (2000). Cuộc thi M3: kết quả, kết luận và ý nghĩa. Tạp chí quốc tế về dự báo, 16 (4), 451-476.

Reid, DJ (1968). Kết hợp ba ước tính tổng sản phẩm trong nước. Kinh tế, 431-444.

Makridakis, S., Spiliotis, E. và Assimakopoulos, V. (2018). Cuộc thi M4: Kết quả, kết quả, kết luận và con đường phía trước. Tạp chí quốc tế dự báo.


1
Liên kết trong chú thích bị mờ có vẻ không hoạt động đối với tôi?
Cá bạc

@Silverfish cảm ơn, đã sửa. Liên kết có tầm quan trọng nhỏ nhưng vẫn không hoạt động, nếu nó không hoạt động thì nó vô dụng.
Tim

0

Arthur (1994) có một thí nghiệm giấy / suy nghĩ ngắn đẹp, nổi tiếng trong văn học phức tạp.

Một trong những kết luận là các tác nhân không thể chọn các mô hình dự đoán tốt hơn (ngay cả khi chúng có "rừng" trong số này) trong các điều kiện không cân bằng. Ví dụ: nếu câu hỏi được áp dụng cho hiệu suất thị trường chứng khoán, cài đặt của Arthur (1994) có thể được áp dụng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.