Dữ liệu miễn phí được thiết lập để phân loại chiều rất cao [đóng]

35

Tập dữ liệu có sẵn miễn phí để phân loại với hơn 1000 tính năng (hoặc điểm mẫu nếu nó chứa đường cong) là gì?

Đã có một wiki cộng đồng về các bộ dữ liệu miễn phí: Định vị các mẫu dữ liệu có sẵn miễn phí

Nhưng ở đây, thật tuyệt khi có một danh sách tập trung hơn có thể được sử dụng thuận tiện hơn , tôi cũng đề xuất các quy tắc sau:

Một bài đăng trên mỗi tập dữ liệu
Không có liên kết đến bộ dữ liệu
mỗi bộ dữ liệu phải được liên kết với
- một tên (để tìm hiểu về nó) và liên kết đến tập dữ liệu (bộ dữ liệu R có thể được đặt tên bằng tên gói)
- số lượng các tính năng (giả sử nó là p ) kích thước của tập dữ liệu (giả sử nó là n ) và số lượng nhãn / lớp (giả sử nó là k )
- một tỷ lệ lỗi điển hình từ kinh nghiệm của bạn (nêu thuật toán được sử dụng thành từ) hoặc từ ký tự (trong trường hợp cuối cùng này liên kết giấy)

— robin dầm
nguồn

+1, nhưng những cái từ NIPS2003 chỉ có train.labels - bài báo NIPS2003 nói rõ "nhãn xác nhận và bộ kiểm tra bị giữ lại".

— chối

Cảm ơn. Nhận xét về NIPS dành cho câu trả lời từ @mbq.

— cướp girard

Bất cứ ai ở đây có một bộ dữ liệu chiều cao với nhiều hơn hai nhãn lớp?

— hlin117

3

Dorothea
n = 1950
p = 100000 (0,1M, một nửa là tiếng ồn được thêm một cách giả tạo)
k = 2 (~ 10 lần không cân bằng)
Từ NIPS2003 .

— dùng88
nguồn

Bạn có thể giải thích làm thế nào đây là 100000 tính năng? Tôi nhìn vào dữ liệu đào tạo và mỗi dòng có thể có 2500 số nguyên trên mỗi dòng.

— JeremyKun

Đó là một mảng thưa thớt, số nguyên N có nghĩa là giá trị thuộc tính N là 1.

3

Gisette
n = 13500
p = 5000 (một nửa là tiếng ồn được thêm một cách giả tạo)
k = 2 (cân bằng)
Từ NIPS2003 .

— người dùng88
nguồn

3

Dexter
n = 2600
p = 20000 (10k + 53 là tiếng ồn nhân tạo)
k = 2 (cân bằng)
Từ NIPS2003 .

— dùng88
nguồn

Tôi không hiểu ... một bộ cho mỗi người?

@robin & @mbq Tôi khuyên bạn nên giữ một bộ dữ liệu cho mỗi bài đăng. Điều này để mọi người có thể biểu thị bằng phiếu bầu trong số những người được đề xuất cũng đề xuất / hỗ trợ

— Peter Smit

@Peter, OK, tôi làm theo ý của bạn, tôi đã thay đổi câu hỏi cho phù hợp.

— cướp girard

3

Arcene
n = 900
p = 10000 (3k là tiếng ồn được thêm một cách giả tạo)
k = 2 (~ cân bằng)
Từ NIPS2003 .

— dùng88
nguồn

2

Tuyến tiền liệt (mảng biểu hiện gen)

k = 2
n = 48 + 52
p = 6033

Có sẵn thông qua (trong số khác) gói R tách tên của bộ dữ liệu: tuyến tiền liệt

tỷ lệ lỗi = 3/102 (xem tại đây ) tôi cũng nghĩ có những tờ giấy hiển thị tỷ lệ lỗi 1/102. Tôi muốn nói rằng đây là một trường hợp thử nghiệm dễ dàng.

— robin
nguồn