Dữ liệu miễn phí được thiết lập để phân loại chiều rất cao [đóng]


35

Tập dữ liệu có sẵn miễn phí để phân loại với hơn 1000 tính năng (hoặc điểm mẫu nếu nó chứa đường cong) là gì?

Đã có một wiki cộng đồng về các bộ dữ liệu miễn phí: Định vị các mẫu dữ liệu có sẵn miễn phí

Nhưng ở đây, thật tuyệt khi có một danh sách tập trung hơn có thể được sử dụng thuận tiện hơn , tôi cũng đề xuất các quy tắc sau:

  1. Một bài đăng trên mỗi tập dữ liệu
  2. Không có liên kết đến bộ dữ liệu
  3. mỗi bộ dữ liệu phải được liên kết với

    • một tên (để tìm hiểu về nó) và liên kết đến tập dữ liệu (bộ dữ liệu R có thể được đặt tên bằng tên gói)

    • số lượng các tính năng (giả sử nó là p ) kích thước của tập dữ liệu (giả sử nó là n ) và số lượng nhãn / lớp (giả sử nó là k )

    • một tỷ lệ lỗi điển hình từ kinh nghiệm của bạn (nêu thuật toán được sử dụng thành từ) hoặc từ ký tự (trong trường hợp cuối cùng này liên kết giấy)


+1, nhưng những cái từ NIPS2003 chỉ có train.labels - bài báo NIPS2003 nói rõ "nhãn xác nhận và bộ kiểm tra bị giữ lại".
chối

Cảm ơn. Nhận xét về NIPS dành cho câu trả lời từ @mbq.
cướp girard

Bất cứ ai ở đây có một bộ dữ liệu chiều cao với nhiều hơn hai nhãn lớp?
hlin117

Câu trả lời:


3

Dorothea
n = 1950
p = 100000 (0,1M, một nửa là tiếng ồn được thêm một cách giả tạo)
k = 2 (~ 10 lần không cân bằng)
Từ NIPS2003 .


Bạn có thể giải thích làm thế nào đây là 100000 tính năng? Tôi nhìn vào dữ liệu đào tạo và mỗi dòng có thể có 2500 số nguyên trên mỗi dòng.
JeremyKun

Đó là một mảng thưa thớt, số nguyên N có nghĩa là giá trị thuộc tính N là 1.


3

Dexter
n = 2600
p = 20000 (10k + 53 là tiếng ồn nhân tạo)
k = 2 (cân bằng)
Từ NIPS2003 .


Tôi không hiểu ... một bộ cho mỗi người?

@robin & @mbq Tôi khuyên bạn nên giữ một bộ dữ liệu cho mỗi bài đăng. Điều này để mọi người có thể biểu thị bằng phiếu bầu trong số những người được đề xuất cũng đề xuất / hỗ trợ
Peter Smit

@Peter, OK, tôi làm theo ý của bạn, tôi đã thay đổi câu hỏi cho phù hợp.
cướp girard


2

Tuyến tiền liệt (mảng biểu hiện gen)

  • k = 2
  • n = 48 + 52
  • p = 6033

Có sẵn thông qua (trong số khác) gói R tách tên của bộ dữ liệu: tuyến tiền liệt

tỷ lệ lỗi = 3/102 (xem tại đây ) tôi cũng nghĩ có những tờ giấy hiển thị tỷ lệ lỗi 1/102. Tôi muốn nói rằng đây là một trường hợp thử nghiệm dễ dàng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.