Làm thế nào để tiếp cận cuộc thi Num.ai với các yếu tố dự đoán số vô danh?


9

Numer.ai đã xuất hiện được một thời gian và dường như chỉ có một vài bài đăng hoặc các cuộc thảo luận khác về nó trên web.

Hệ thống đã thay đổi theo thời gian và thiết lập ngày hôm nay là như sau:

  1. đào tạo dữ liệu (N = 96K) và thử nghiệm (N = 33K) với 21 tính năng với các giá trị liên tục trong [0,1] và mục tiêu nhị phân.
  2. Dữ liệu sạch (không thiếu giá trị) và được cập nhật 2 tuần một lần. Bạn có thể tải lên dự đoán của mình (trên bộ kiểm tra) và xem mất nhật ký. Một phần của dữ liệu thử nghiệm thậm chí là dữ liệu trực tiếp và bạn được trả tiền cho các dự đoán tốt.

Những gì tôi muốn thảo luận:

Vì các tính năng hoàn toàn ẩn danh, tôi nghĩ rằng chúng ta không thể làm được nhiều tính năng. Vì vậy, cách tiếp cận của tôi là rất máy móc:

  1. lấy cảm hứng từ điều này, tôi sử dụng thuật toán phân loại để lọc ra những dữ liệu đào tạo phù hợp nhất với dữ liệu thử nghiệm của mình.
  2. Tìm ra một số tiền xử lý tốt
  3. đào tạo các thuật toán phân loại tốt đẹp
  4. xây dựng quần thể của họ (xếp chồng, ..).

Câu hỏi cụ thể:

Liên quan đến bước 1: Bạn có kinh nghiệm với cách tiếp cận như vậy không? Giả sử tôi yêu cầu xác suất mẫu tàu thuộc về thử nghiệm (thường dưới 0,5) và sau đó tôi lấy xác suất K lớn nhất. Làm thế nào bạn sẽ chọn K? Tôi đã thử với 15K .. nhưng chủ yếu là có một bộ dữ liệu đào tạo nhỏ để tăng tốc độ đào tạo ở bước 3.

Liên quan đến bước 2: Dữ liệu đã ở trên thang 0,1. Nếu tôi áp dụng bất kỳ phép biến đổi tuyến tính (PCA nào) thì tôi sẽ phá vỡ thang đo này. Bạn sẽ thử gì trong quá trình tiền xử lý nếu bạn có dữ liệu số như vậy và không biết đây thực sự là gì.

PS: Tôi biết rằng vì num.ai trả tiền cho những người thảo luận về việc này có thể giúp tôi kiếm tiền. Nhưng vì đây là công khai nên điều này sẽ giúp bất cứ ai ngoài đó ...

PPS: Bảng xếp hạng ngày nay có một mô hình thú vị: Hai bảng xếp hạng hàng đầu với logloss là 0,64xx, sau đó là số 3 với 0,66xx và sau đó hầu hết các dự đoán đạt 0,6888x.

Do đó, dường như có một lĩnh vực hàng đầu rất nhỏ và rất nhiều người thành công vừa phải (bao gồm cả tôi).

Câu trả lời:


2

Tôi đã xem xét cách tiếp cận và tôi chọn K bằng cách thử một phạm vi, tức là 5k, 10k, 15k, v.v. và sau đó khám phá phạm vi mà kết quả tốt nhất rơi xuống, giả sử tốt nhất là 15k thì tôi có thể làm 13, 14, 15, 16, 17 và cứ thế.

Cho đến nay tôi không thấy bất kỳ quá trình tiền xử lý nào có hiệu quả.

Trả lời bình luận:

Tôi đã thử sử dụng LogisticRegression, SVM, Mạng nơ-ron, RandomForests, NB đa quốc gia, Cây bổ sung. Tất cả ngoại trừ Mạng nơ-ron sử dụng các triển khai trong sklearn. PyBrain cho NN.


Có lẽ bạn có thể thêm một số chi tiết? Có, chúng tôi thử dữ liệu đào tạo của các kích cỡ khác nhau. Những tiền xử lý nào bạn đã thử? phân loại nào? Cảm ơn!
Richard
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.