Có phải các cuộc thi Kaggle chỉ giành chiến thắng một cách tình cờ?


12

Các cuộc thi Kaggle xác định thứ hạng cuối cùng dựa trên một bộ thử nghiệm được tổ chức.

Một bộ kiểm tra tổ chức là một mẫu; nó có thể không đại diện cho dân số được mô hình hóa. Vì mỗi bài nộp giống như một giả thuyết, thuật toán giành chiến thắng trong cuộc thi có thể, cuối cùng, có thể kết thúc phù hợp với tập kiểm tra tốt hơn các bài kiểm tra khác. Nói cách khác, nếu một bộ thử nghiệm khác được chọn và cuộc thi lặp lại, liệu thứ hạng có giữ nguyên không?

Đối với tập đoàn tài trợ, điều này không thực sự quan trọng (có lẽ 20 bài nộp hàng đầu sẽ cải thiện đường cơ sở của họ). Mặc dù, trớ trêu thay, cuối cùng họ có thể sử dụng một mô hình được xếp hạng đầu tiên tệ hơn so với năm mô hình hàng đầu khác. Nhưng, đối với những người tham gia cuộc thi, có vẻ như Kaggle cuối cùng là một trò chơi may rủi - may mắn không cần phải vấp phải giải pháp đúng đắn, cần phải vấp ngã vào một thử thách phù hợp với bộ thử nghiệm!

Có thể thay đổi cuộc thi để tất cả các đội hàng đầu không thể thống kê chiến thắng? Hoặc, trong nhóm này, mô hình giá rẻ nhất hoặc tính toán nhất có thể giành chiến thắng?


1
Một số người sử dụng thử nghiệm trên bộ ẩn để sao lưu các giá trị thử nghiệm thực tế. Điều này cho phép họ gần như hoàn toàn phù hợp với kết quả. Việc nắm giữ ngăn chặn điều này. Ý kiến ​​cá nhân của tôi là sự khác biệt giữa nắm giữ và không nắm giữ là về việc loại bỏ những kẻ gian lận.
EngrStudent - Phục hồi Monica

1
Tất nhiên dữ liệu kiểm tra nên được tổ chức từ những người tham gia, nhưng tôi tự hỏi liệu việc có một bộ kiểm tra duy nhất có làm cho kết quả thi đấu (đối với các đội hàng đầu ) chủ yếu phụ thuộc vào cơ hội hay không. X
dùng0

Điểm số có trọng số. Một hệ thống tuyệt vời sẽ tốt hơn một hệ thống rác gần như mọi lúc. Phải mất một xe tải công việc để thất bại nặng nề đến nỗi cuối cùng trở thành đầu tiên. Trật tự địa phương, có thể là 10 bước trong xếp hạng hoặc ít hơn, khi có hàng ngàn người tham gia, sẽ thay đổi nếu việc tổ chức được tổ chức lại. Bạn có thể thực hiện một thử nghiệm số để hiển thị điều này.
EngrStudent - Phục hồi Monica

2
Từ quan điểm của tập đoàn tài trợ, họ không bị buộc phải thực hiện mô hình chiến thắng. Nếu tôi nhớ chính xác, mô hình chiến thắng thử thách netflix không bao giờ được thực hiện. Họ có thể đưa một vài ứng cử viên đáng tin cậy trong số các mô hình tốt nhất và kiểm tra thêm.
David Ernst

Câu trả lời:


12

Vâng, lý luận của bạn là chính xác. Nếu một bộ thử nghiệm khác được chọn và cuộc thi lặp lại, thứ hạng thực sự sẽ thay đổi. Hãy xem xét ví dụ sau. Tất cả các mục tham gia cuộc thi Kaggle với nhãn nhị phân chỉ cần đoán ngẫu nhiên (và, nói một cách độc lập) để dự đoán đầu ra của chúng. Tình cờ, một trong số họ sẽ đồng ý với việc nắm giữ nhiều hơn những người khác, mặc dù không có dự đoán nào đang diễn ra.

Mặc dù điều này hơi khó hiểu, nhưng chúng ta có thể thấy rằng phương sai trong mỗi mô hình của bài nộp có nghĩa là việc áp dụng nhiều mục như vậy thực sự sẽ phù hợp với tiếng ồn của tập hợp giữ. Điều này cho chúng ta biết rằng (tùy thuộc vào phương sai của mô hình riêng lẻ), các mô hình N hàng đầu có thể khái quát giống nhau. Đây là khu vườn của những con đường rèn , ngoại trừ "các nhà nghiên cứu" không giống nhau (nhưng điều đó không quan trọng).

Có thể thay đổi cuộc thi để tất cả các đội không thể được phân biệt thống kê với thành tích cao nhất trong bài kiểm tra chiến thắng?

Thật.

  • Một cách tiếp cận (không thực tế) sẽ là giải quyết rõ ràng phương sai của một mô hình nhất định trong mỗi mục, điều này sẽ cho chúng ta một CI về hiệu suất nắm giữ của chúng.
  • Một cách tiếp cận khác, có thể cần rất nhiều tính toán, là khởi động một CI về hiệu năng giữ chỗ, bằng cách đưa ra API đào tạo và thử nghiệm cho tất cả các mô hình.

Câu trả lời chính xác. Bạn có thể giải thích làm thế nào hai phương pháp có thể được thực hiện?
dùng0

1
Thật thú vị: mô hình tốt nhất trên thực tế có thể không phải là đội chiến thắng.
dùng0

1
Hoàn toàn có thể giải quyết được phương sai mà không cần phân phối dữ liệu (tôi chỉ đề cập đến nó vì nó giải thích lý thuyết). Bài viết này mô tả một số phương pháp (và khi chúng thất bại) để ước tính độ chính xác, bao gồm bootstrap và xác thực chéo. Mặc dù vậy, không giống như bài báo, trong bối cảnh này, chúng tôi không thực hiện CV để lựa chọn mô hình trên tập huấn luyện, mà là "điểm số" mạnh mẽ trên tập dữ liệu kiểm tra và huấn luyện kết hợp.
VF1

Có lẽ hai vòng là tốt hơn để ước tính người chiến thắng mạnh mẽ. Vòng đầu tiên loại bỏ 99% tệ nhất và vòng thứ hai ước tính lại thứ hạng để "đánh bóng" trật tự.
EngrStudent - Phục hồi Monica

1
Để thêm vào các ý tưởng ở đây, hãy xem bài viết này của người chiến thắng trong cuộc thi NCAA March Madness Kaggle năm 2014. Cuộn xuống phần 4, "Nghiên cứu mô phỏng". Theo sim của họ, nếu xác suất dự đoán của mô hình của họ cho mỗi trận đấu trên thực tế là trạng thái tự nhiên thực sự, thì vị trí trung bình của họ sẽ ở vị trí thứ 11.
klumbard

3

Có nhiều loại thi đấu khác trong Kaggle không có yếu tố cơ hội. Ví dụ, chiếc Stanta's Stolen Sleigh này .

Đây là một vấn đề tối ưu hóa riêng biệt và thậm chí nó không có ban lãnh đạo tư nhân. Những gì bạn nhìn thấy trong ban lãnh đạo công cộng là kết quả cuối cùng.

So với việc học có giám sát, điều đó có một khởi đầu dễ dàng đối với nhiều người, loại hình cạnh tranh này có bản chất "khó" hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.