Trước tiên, tôi khuyên bạn nên bắt đầu với dữ liệu mẫu được cung cấp cùng với phần mềm. Hầu hết các bản phân phối phần mềm bao gồm dữ liệu mẫu mà bạn có thể sử dụng để làm quen với thuật toán mà không phải xử lý các loại dữ liệu và đánh vật dữ liệu theo đúng định dạng của thuật toán. Ngay cả khi bạn đang xây dựng một thuật toán từ đầu, bạn có thể bắt đầu với mẫu từ một triển khai tương tự và so sánh hiệu suất.
Thứ hai, tôi khuyên bạn nên thử nghiệm với các bộ dữ liệu tổng hợp để cảm nhận về cách thuật toán thực hiện khi bạn biết cách dữ liệu được tạo và tỷ lệ tín hiệu / nhiễu.
Trong R, bạn có thể liệt kê tất cả các tập dữ liệu trong các gói hiện được cài đặt bằng lệnh này:
data(package = installed.packages()[, 1])
Gói mlbench R có bộ dữ liệu thực và có thể tạo bộ dữ liệu tổng hợp hữu ích cho việc nghiên cứu hiệu suất thuật toán.
Scikit-learn của Python có dữ liệu mẫu và cũng tạo ra tập dữ liệu tổng hợp / đồ chơi.
SAS có sẵn tập dữ liệu đào tạo và dữ liệu mẫu SPSS được cài đặt cùng với phần mềm tại C: \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samples
Cuối cùng, tôi sẽ xem dữ liệu trong tự nhiên. Tôi sẽ so sánh hiệu suất của các thuật toán khác nhau và các tham số điều chỉnh trên các tập dữ liệu thực. Điều này thường đòi hỏi nhiều công việc hơn vì bạn sẽ hiếm khi tìm thấy tập dữ liệu với các kiểu dữ liệu và cấu trúc mà bạn có thể thả ngay vào thuật toán của mình.
Đối với dữ liệu trong tự nhiên, tôi khuyên bạn nên:
Lưu trữ dữ liệu của reddit
Danh sách của KDnugget