Lựa chọn mô hình trong học ngoại tuyến so với học trực tuyến


11

Gần đây tôi đã cố gắng tìm hiểu thêm về học trực tuyến (nó hoàn toàn hấp dẫn!) Và một chủ đề mà tôi chưa thể nắm bắt được là làm thế nào để suy nghĩ về lựa chọn mô hình trong ngoại tuyến so với bối cảnh trực tuyến. Cụ thể, giả sử chúng ta đào tạo một phân loại ẩn, dựa trên một số cố định tập hợp dữ liệu D . Chúng tôi ước tính các đặc tính hiệu suất của nó thông qua xác nhận chéo, và chúng tôi chọn phân loại tốt nhất theo cách này.SD

Đây là những gì tôi đã suy nghĩ về: làm thế nào, sau đó, chúng ta có đi về việc áp dụng cho một cài đặt trực tuyến không? Chúng ta có thể cho rằng S tốt nhất được tìm thấy ngoại tuyến cũng sẽ hoạt động tốt như một trình phân loại trực tuyến không? Liệu có hợp lý khi thu thập một số dữ liệu để đào tạo S , sau đó lấy cùng một phân loại S và "vận hành" nó trong một cài đặt trực tuyến với các tham số tương tự được tìm thấy trên D , hoặc cách tiếp cận khác có thể tốt hơn không? Hãy cẩn thận trong những trường hợp này là gì? Các kết quả chính ở đây là gì? Và kể từ đó trở đi.SSSSD

Dù sao, bây giờ ở ngoài đó, tôi đoán những gì tôi đang tìm kiếm là một số tài liệu tham khảo hoặc tài nguyên sẽ giúp tôi (và hy vọng những người khác, những người đã nghĩ về điều này!) Thực hiện chuyển đổi từ suy nghĩ chỉ bằng thuật ngữ ngoại tuyến và phát triển khung tinh thần để suy nghĩ về vấn đề lựa chọn mô hình và những câu hỏi này theo cách mạch lạc hơn khi quá trình đọc của tôi tiến triển.


Bạn đã có bất kỳ khách hàng tiềm năng hữu ích nào, hoặc bây giờ bạn có bất kỳ đề xuất nào để đưa ra không? Cảm ơn!
1953384

Tôi đề nghị bạn xem xét giấy của Francesco " arxiv.org/pdf/1406.3816v1.pdf " trong đó anh ta cùng thực hiện lựa chọn và tối ưu hóa mô hình trong một lần chụp.
chandresh

Nếu bạn có thể bỏ qua tường trả tiền, đây có thể là tài liệu tham khảo rất tốt: cognet.mit.edu/journal/10.1162/089976601750265045 ?
discipulus

Câu trả lời:


1

Rõ ràng, trong ngữ cảnh phát trực tuyến, bạn không thể chia dữ liệu của mình thành các tập huấn luyện và kiểm tra để thực hiện xác thực chéo. Chỉ sử dụng các số liệu được tính toán trên tập tàu ban đầu nghe có vẻ tệ hơn, vì bạn cho rằng dữ liệu của bạn thay đổi và mô hình của bạn sẽ thích ứng với các thay đổi - đó là lý do tại sao bạn đang sử dụng chế độ học trực tuyến ở nơi đầu tiên.

kk+1

Cuối cùng, bạn bằng cách nào đó trung bình (thường là trung bình số học, nhưng bạn cũng có thể sử dụng một cái gì đó như làm mịn theo cấp số nhân) các số liệu lỗi để có được ước tính độ chính xác tổng thể.

nhập mô tả hình ảnh ở đây

Trong một kịch bản trực tuyến, điều này có nghĩa là bạn bắt đầu tại timepoint 1 và thử nghiệm trên timepoint 2, tiếp theo đào tạo lại trên timepoint 2, để thử nghiệm trên timepoint 3, v.v.

Lưu ý rằng phương pháp xác thực chéo như vậy cho phép bạn tính đến sự thay đổi bản chất của hiệu suất mô hình của bạn. Rõ ràng, khi mô hình của bạn thích ứng với dữ liệu và dữ liệu có thể thay đổi, bạn sẽ cần theo dõi các số liệu lỗi thường xuyên: nếu không, nó sẽ không khác nhiều so với sử dụng các bộ kiểm tra và thử nghiệm có kích thước cố định.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.