Bảng xếp hạng riêng của Kaggle có phải là một công cụ dự đoán tốt về hiệu suất vượt trội của mô hình chiến thắng không?


16

Mặc dù kết quả của bộ thử nghiệm riêng không thể được sử dụng để tinh chỉnh mô hình hơn nữa, nhưng không phải lựa chọn mô hình trong số lượng lớn các mô hình đang được thực hiện dựa trên kết quả của thử nghiệm riêng? Bạn sẽ không, thông qua quá trình đó một mình, kết thúc quá mức cho bộ thử nghiệm riêng tư?

Theo "Giả thuyết toán học và tài chính giả: Tác động của việc vượt quá mức hiệu quả đối với hoạt động ngoài mẫu" của Bailey et.al. tương đối dễ dàng để "overfit" khi chọn tốt nhất trong số lượng lớn các mô hình được đánh giá trên cùng một tập dữ liệu. Điều đó không xảy ra với bảng xếp hạng riêng của Kaggle?

  • Các biện minh thống kê cho các mô hình hoạt động tốt nhất trên bảng xếp hạng riêng là các mô hình tổng quát hóa dữ liệu ngoài mẫu tốt nhất là gì?
  • Các công ty thực sự kết thúc bằng cách sử dụng các mô hình chiến thắng, hay là bảng xếp hạng tư nhân ở đó chỉ để cung cấp "luật chơi", và các công ty thực sự quan tâm nhiều hơn đến cái nhìn sâu sắc nảy sinh từ cuộc thảo luận về vấn đề này?

1

2
Bạn có thể nhìn vào sự khác biệt giữa điểm số riêng tư và công cộng. Người ta có thể lập luận rằng một mô hình không được trang bị quá mức sẽ đạt được hiệu suất tương tự trên cả hai tập dữ liệu.
Shadowtalker

2
@shadowtalker Đó thực sự sẽ là một cách tốt để phát hiện quá mức, nhưng điều chúng ta thực sự quan tâm là khả năng dự đoán ngoài mẫu của mô hình, chứ không phải mức độ quá mức. Một mô hình overfit - tức là một mô hình hoạt động trong mẫu tốt hơn nhiều so với ngoài mẫu - có thể có hiệu suất ngoài mẫu tốt hơn so với mô hình không phù hợp. Tôi không có tài liệu tham khảo trong tay, nhưng tôi tin rằng đó thường là trường hợp trong các lĩnh vực phức tạp, ví dụ như thị giác máy tính, khi sử dụng các mô hình phức tạp, ví dụ CNN.
rinspy

Câu trả lời:


10

Vâng, những điểm bạn trình bày là công bằng, tuy nhiên tôi nghĩ rằng có một vấn đề thực sự hơn nhiều với những người thừa trên bảng xếp hạng công khai .

Điều này có thể xảy ra khi bạn thực hiện 100 lần gửi, bộ kiểm tra công khai cuối cùng sẽ xuất hiện trong lựa chọn siêu tham số của bạn và do đó quá phù hợp. Tôi nghĩ rằng bảng xếp hạng tư nhân là cần thiết trong khía cạnh đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.