Học trực tuyến nghệ thuật

Gần đây tôi đã làm việc với các tập dữ liệu lớn và tìm thấy rất nhiều bài viết về phương pháp phát trực tuyến. Đến tên một vài:

Theo dõi thường xuyên và lãnh đạo gương: Định lý tương đương và chính quy hóa L1 ( http://jmlr.org/proceedings/ con / v15 / mcmahan11b / mcmahan11b.pdf )
Học trực tuyến: Các SVM một lượt ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
Pegasos: Trình điều khiển phụ GrAdient ước tính tối ưu cho SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
hoặc ở đây: SVM có thể phát trực tuyến một ví dụ không?
Truyền các khu rừng ngẫu nhiên ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )

Tuy nhiên, tôi không thể tìm thấy bất kỳ tài liệu nào liên quan đến cách họ so sánh với nhau. Mỗi bài viết tôi đọc dường như chạy thử nghiệm trên tập dữ liệu khác nhau.

Tôi biết về sofia-ml, vowpal wợi, nhưng họ dường như thực hiện rất ít phương pháp, so với số lượng lớn các phương pháp hiện có!

Là các thuật toán ít phổ biến không đủ hiệu suất? Có bài báo nào cố gắng xem lại càng nhiều phương pháp càng tốt không?

— RUser4512
nguồn

Nếu không có, bạn nên tự viết nó :)

— Chris C

bạn có hiểu rằng những người trong học viện phải viết bài / đưa ra các thuật toán mới và họ sẽ tìm kiếm các tập dữ liệu mà thuật toán của họ hoạt động tốt nhất. Tôi khuyên bạn chỉ cần đảm bảo rằng bạn hiểu cách một thư viện như vowpal-w cứ chạy (tức là tất cả các tham số, v.v.).

— seanv507

Điều đó thực sự ngược lại! Tôi hiểu rằng mọi người đã chọn tập dữ liệu tốt nhất và thường khá im lặng về cách họ xác thực chéo các thuật toán (cả phương pháp của họ và phương thức cạnh tranh). Tôi thay vì tìm kiếm một phiên bản phát trực tuyến của jmlr.org/ con / vololume15 / delgado14a / delgado14a.pdf

— RUser4512

Thực sự thích bài báo JMLR mà bạn liên kết. Bản thân tôi không biết một so sánh tương tự cho các thuật toán phát trực tuyến. Có lẽ bởi vì truyền phát là thích hợp hơn và cũng bởi vì mặc dù rất khó để so sánh các bộ phân loại cho các bộ dữ liệu tĩnh, thậm chí còn phức tạp hơn để so sánh công bằng cho dữ liệu truyền phát.

— thống kê0007

Mặc dù những điều này không trả lời cụ thể câu hỏi của bạn, hai tài nguyên liên quan là: Đánh giá các thuật toán học từ luồng dữ liệu của Gama và cộng sự, thảo luận về các kỹ thuật đánh giá và MOA (Phân tích trực tuyến lớn) , một khung nguồn mở để khai thác luồng dữ liệu kết hợp với khai thác luồng dữ liệu. khả năng đánh giá hiệu suất.

— user77876

Một cuộc khảo sát nghiêm ngặt về nhiều thuật toán tương tự như bài báo Delgado mà bạn liên kết không có sẵn theo như tôi biết, nhưng đã có những nỗ lực để thu thập kết quả cho các họ thuật toán.

Dưới đây là một số nguồn tôi thấy hữu ích (từ chối trách nhiệm: Tôi xuất bản trong khu vực, vì vậy có khả năng tôi bị thiên vị trong lựa chọn của mình):

Một cuộc khảo sát về Học tập phân loại dữ liệu (Khảo sát)
Học trực tuyến và tối ưu hóa lồi trực tuyến (Báo cáo kỹ thuật)
Học máy trực tuyến trong các luồng dữ liệu lớn (Khảo sát)
Học máy cho luồng dữ liệu (Sách)
Các thuật toán cho cây hồi quy học tập và sự đồng nhất về phát triển luồng dữ liệu (Luận án tiến sĩ)
Học theo Concept Drift: Tổng quan (Khảo sát)
Học trực tuyến tối ưu và thích ứng (Luận án tiến sĩ)
Học tập và khai thác thích ứng cho các luồng dữ liệu và các mẫu thường xuyên (Luận án tiến sĩ)

Một số gói phần mềm:

Tôi có thể thêm thông tin và nguồn nếu cần. Như những người khác đã nói lĩnh vực này có thể sử dụng một cuộc khảo sát toàn diện.

— Quán ba
nguồn