Tôi có thể tìm bộ dữ liệu hữu ích ở đâu để thử nghiệm triển khai Machine Learning của riêng mình? [đóng cửa]

Tôi hiện đang cố gắng tự mình thực hiện một số thuật toán Machine Learning. Nhiều người trong số họ có đặc tính khó chịu là khó gỡ lỗi, một số lỗi không khiến chương trình bị sập, nhưng hoạt động không như dự định và dường như các thuật toán chỉ cho kết quả yếu hơn.

Tôi muốn có một số cách để tăng sự tự tin của tôi trong việc triển khai, ví dụ nếu tôi có một số bộ dữ liệu nhỏ, với thông tin bổ sung "Thuật toán X hoạt động cho các lần lặp Y và có kết quả Z trên tập dữ liệu này", điều đó thực sự hữu ích. Có ai nghe nói về các bộ dữ liệu như vậy?

dataset

— sjm.majewski
nguồn

Bạn đã làm nghiên cứu gì trong việc điều tra câu hỏi này? Lúc đầu, người ta sẽ nghĩ rằng tài liệu bạn đang sử dụng để tìm các thuật toán này sẽ chứa đầy các bộ dữ liệu mẫu.

— whuber

Chà, tôi biết ML chủ yếu từ khóa học Đại học, Coursea, các video bài giảng trên internet và một vài bài báo tôi đã đọc về các chủ đề cụ thể. Tôi biết có rất nhiều bộ dữ liệu mẫu ở khắp mọi nơi, nhưng tôi đang tìm kiếm một số thông tin về cách các thuật toán ML khác nhau thực hiện trên chúng, vì vậy tôi có thể xác thực các triển khai của riêng mình.

— sjm.majewski

Gần đây có một bài báo hay về ICML về vấn đề với các bộ dữ liệu được tiêu chuẩn hóa - nó ngăn bạn suy nghĩ quá nhiều về các vấn đề trong thế giới thực và sự lộn xộn mà các vấn đề trong thế giới thực liên quan. Cá nhân khi tôi bắt đầu sử dụng dữ liệu trong thế giới thực, kỹ năng của tôi như một người luyện tập nở rộ. Vì vậy, trong khi tôi sẽ không khuyến khích bạn sử dụng những thứ như UCI như một bước đệm hoặc thử nghiệm, hãy chú ý đến giải thưởng!

— Patrick Caldon

Bạn nên xác định loại máy học bạn đang làm. Các tập dữ liệu phân loại nhị phân khác với các tập dữ liệu xấp xỉ hàm (hồi quy).

— Douglas Zare

stackoverflow.com/questions/3272806/NH

— Abhishek Gupta

Câu trả lời:

Từ Kho lưu trữ máy học của UC Irvine :

Chúng tôi hiện đang duy trì 223 bộ dữ liệu như một dịch vụ cho cộng đồng học máy. Bạn có thể xem tất cả các bộ dữ liệu thông qua giao diện có thể tìm kiếm của chúng tôi. Trang web cũ của chúng tôi vẫn có sẵn, cho những người thích định dạng cũ. ... Nếu bạn muốn tặng một bộ dữ liệu, vui lòng tham khảo chính sách quyên góp của chúng tôi. ... Chúng tôi cũng đã thiết lập một trang nhân bản cho Kho lưu trữ.

Ngoài ra, bộ dữ liệu MIAS sau đây đã được sử dụng và nghiên cứu rộng rãi:

Khi đo điểm chuẩn một thuật toán, nên sử dụng cơ sở dữ liệu thử nghiệm tiêu chuẩn (bộ dữ liệu) để các nhà nghiên cứu có thể so sánh trực tiếp kết quả. Hầu hết các cơ sở dữ liệu chụp nhũ ảnh không có sẵn công khai. Các cơ sở dữ liệu dễ truy cập nhất và do đó các cơ sở dữ liệu được sử dụng phổ biến nhất là cơ sở dữ liệu của Hiệp hội phân tích hình ảnh động vật có vú (MIAS) và Cơ sở dữ liệu kỹ thuật số để chụp nhũ ảnh (DDSM). Bên cạnh đó, hiện tại có rất ít dự án phát triển cơ sở dữ liệu hình ảnh động vật có vú mới cũng như một số dự án cũ.

— DeepML
nguồn

+1 Nếu bạn tiếp tục tìm thêm nguồn, xin vui lòng tăng câu trả lời này.

— whuber

Kho lưu trữ UCI được đề cập bởi Bashar có lẽ là lớn nhất, tuy nhiên tôi muốn thêm một vài bộ sưu tập nhỏ hơn mà tôi đã gặp:

Các bộ dữ liệu từ thư viện Mulan Java
Bộ dữ liệu từ phòng thí nghiệm Auton của Trường Khoa học Máy tính của Đại học Carnegie Mellon
Các bộ dữ liệu được sử dụng trong các yếu tố sách của học thống kê
Một số bộ dữ liệu từ các cuộc thi KDD Cup
Bộ dữ liệu tại Cục Thống kê , Đại học Munich

— bã nhờn
nguồn