Tập dữ liệu có sẵn miễn phí để phân loại với hơn 1000 tính năng (hoặc điểm mẫu nếu nó chứa đường cong) là gì?
Đã có một wiki cộng đồng về các bộ dữ liệu miễn phí: Định vị các mẫu dữ liệu có sẵn miễn phí
Nhưng ở đây, thật tuyệt khi có một danh sách tập trung hơn có thể được sử dụng thuận tiện hơn , tôi cũng đề xuất các quy tắc sau:
- Một bài đăng trên mỗi tập dữ liệu
- Không có liên kết đến bộ dữ liệu
mỗi bộ dữ liệu phải được liên kết với
một tên (để tìm hiểu về nó) và liên kết đến tập dữ liệu (bộ dữ liệu R có thể được đặt tên bằng tên gói)
số lượng các tính năng (giả sử nó là p ) kích thước của tập dữ liệu (giả sử nó là n ) và số lượng nhãn / lớp (giả sử nó là k )
một tỷ lệ lỗi điển hình từ kinh nghiệm của bạn (nêu thuật toán được sử dụng thành từ) hoặc từ ký tự (trong trường hợp cuối cùng này liên kết giấy)