Bất kỳ quy tắc nào của ngón tay cái về số lượng tính năng so với số lượng phiên bản? (bộ dữ liệu nhỏ)


16

Tôi tự hỏi, nếu có bất kỳ heuristic về số lượng các tính năng so với số lượng quan sát. Rõ ràng, nếu một số tính năng bằng với số lượng quan sát, mô hình sẽ phù hợp hơn. Bằng cách sử dụng các phương pháp thưa thớt (LASSO, lưới đàn hồi), chúng tôi có thể loại bỏ một số tính năng để giảm mô hình.

Câu hỏi của tôi là (về mặt lý thuyết): trước khi chúng tôi sử dụng các số liệu để đánh giá lựa chọn mô hình, có bất kỳ quan sát thực nghiệm nào liên quan đến số lượng tính năng tối ưu với số lượng quan sát không?

Ví dụ: đối với một vấn đề phân loại nhị phân với 20 trường hợp trong mỗi lớp, có giới hạn trên nào về số lượng tính năng sẽ sử dụng không?

Câu trả lời:


13

Nhiều giấy tờ đã cho rằng

chỉ trong những trường hợp hiếm hoi mới có phân phối lỗi được biết đến như là một hàm của số lượng tính năng và cỡ mẫu.

Bề mặt lỗi cho một tập hợp các thể hiện và tính năng nhất định là một hàm của mối tương quan (hoặc thiếu) giữa các tính năng.

Bài viết này gợi ý như sau:

  • Đối với các tính năng không tương thích, kích thước tính năng tối ưu là (trong đó là cỡ mẫu)N1N
  • Khi tương quan tính năng tăng và kích thước tính năng tối ưu sẽ tỷ lệ thuận với cho các tính năng tương quan cao.N

Một cách tiếp cận (theo kinh nghiệm) khác có thể được thực hiện, là vẽ các đường cong học tập cho các cỡ mẫu khác nhau từ cùng một tập dữ liệu và sử dụng phương pháp đó để dự đoán hiệu suất phân loại ở các cỡ mẫu khác nhau. Đây là liên kết đến bài báo .


2
Tôi thấy câu trả lời này hơi sai lệch vì một giả định quan trọng của bài báo Hua bị thiếu: Các tính năng Hua et al. xem xét trong các bài báo được liên kết là tất cả thông tin, đó không phải là những gì bạn có thể mong đợi có trong thực tế. IMHO điều này nên được nêu rõ ràng là loại "tính năng" không tương thích phổ biến nhất của IMHO là các kênh đo lường không chính xác.
cbeleites hỗ trợ Monica

Wrt. các đường cong học tập: OP có thể sẽ không thể sử dụng chúng với các trường hợp 2 × 20, vì chúng không thể được đo với độ chính xác hữu ích từ rất ít trường hợp. Hua đề cập ngắn gọn về điều này, và chúng tôi đã thảo luận về khó khăn này thay vì chi tiết trong bài báo tôi liên kết trong câu trả lời của tôi dưới đây.
cbeleites hỗ trợ Monica

8

từ kinh nghiệm của bản thân: Trong một trường hợp, tôi đã làm việc với cơ sở dữ liệu thực sự rất nhỏ (300 hình ảnh) với nhiều lớp, vấn đề mất cân bằng dữ liệu nghiêm trọng và tôi đã kết thúc bằng việc sử dụng 9 tính năng: SIFT, HOG, Shape bối cảnh, SSIM, GM và 4 tính năng dựa trên DNN. Trong một trường hợp khác, tôi đã làm việc với cơ sở dữ liệu rất lớn (hình ảnh 1 M) và kết thúc bằng việc chỉ sử dụng tính năng HOG. Tôi nghĩ rằng không có mối quan hệ trực tiếp giữa số lượng phiên bản và số lượng tính năng cần thiết để đạt được độ chính xác cao. NHƯNG: số lượng các lớp, sự giống nhau giữa các lớp và biến thể trong cùng một lớp (ba tham số này) có thể ảnh hưởng đến số lượng các tính năng. khi có cơ sở dữ liệu lớn hơn với nhiều lớp và sự tương đồng lớn giữa các lớp và biến thể lớn trong cùng một lớp, bạn cần nhiều tính năng hơn để đạt được độ chính xác cao. NHỚ LẠI:


@Bashar Haddad: Sửa lỗi cho tôi nếu tôi sai (vì tôi chưa quen với cả thị giác máy tính và ML), không phải là tính năng HOG thực sự là một vectơ chiều cao (trong trường hợp của tôi, tôi đã nhận được các tính năng HOG 1764 chiều). Vì vậy, khi bạn nói 9 tính năng và một trong số đó là HOG, bạn có thực sự nhận được không gian tính năng chiều cao cho riêng HOG không?
Mathmath

1
Trong tài liệu, họ sử dụng tính năng từ để chỉ loại tính năng hoặc chỉ mục thứ nguyên. Vì vậy, khi tôi nói tôi đang sử dụng 6 tính năng, điều này có nghĩa là tôi đang sử dụng 6 loại tính năng, mỗi loại là vectơ (1 x D). nếu tôi đang nói về loại tính năng Hog, mỗi chiều có thể là một tính năng.
Bashar Haddad

2

Nó phụ thuộc ... nhưng tất nhiên câu trả lời đó không đưa bạn đến đâu cả.

Ông là một số quy tắc cho sự phức tạp của mô hình: Học từ dữ liệu - kích thước VC

"Rất đại khái" bạn cần 10 điểm dữ liệu cho mỗi tham số mô hình. Và số lượng tham số mô hình có thể tương tự như số lượng tính năng.


2

Bit đến bữa tiệc muộn, nhưng đây là một số heuristic.

vấn đề phân loại nhị phân với 20 trường hợp trong mỗi lớp, có giới hạn nào về số lượng tính năng sẽ sử dụng không?

  • Để đào tạo các phân loại tuyến tính, khuyến nghị 3 - 5 trường hợp độc lập cho mỗi lớp và tính năng. Giới hạn này cung cấp cho bạn các mô hình ổn định đáng tin cậy , nó không đảm bảo một mô hình tốt (điều này là không thể: bạn có thể có dữ liệu không chính xác khi không có mô hình nào có thể đạt được hiệu suất khái quát tốt)

  • Tuy nhiên, đối với kích thước mẫu nhỏ như kịch bản của bạn, xác minh (xác thực) thay vì đào tạo là nút cổ chai và xác minh phụ thuộc vào số lượng trường hợp thử nghiệm tuyệt đối thay vì các trường hợp liên quan đến độ phức tạp của mô hình: như một quy tắc chung, bạn cần test 100 thử nghiệm các trường hợp trong mẫu số để ước tính tỷ lệ với khoảng tin cậy không quá 10% điểm.

    Thật không may, điều này cũng có nghĩa là về cơ bản bạn không thể có được đường cong học tập theo kinh nghiệm cho ứng dụng của mình: bạn không thể đo lường nó đủ chính xác và trong thực tế, dù sao bạn cũng gặp khó khăn lớn khi ngoại suy nó vì để đào tạo bạn phản ứng với cỡ mẫu nhỏ bằng cách hạn chế mô hình của bạn độ phức tạp - và bạn sẽ thư giãn điều này với việc tăng kích thước mẫu.

    Xem bài viết của chúng tôi để biết chi tiết: Beleites, C. và Neugebauer, U. và Bocklitz, T. và Krafft, C. và Popp, J.: Lập kế hoạch cỡ mẫu cho các mô hình phân loại. Hậu môn Chim Acta, 2013, 760, 25-33.
    DOI: 10.1016 / j.aca.2012.11.007

    bản thảo được chấp nhận trên arXiv: 1211.1323

  • Tôi chưa bao giờ có bất cứ điều gì gần với các khuyến nghị này (dữ liệu quang phổ, cũng cho các ứng dụng y tế). Những gì tôi làm sau đó là: Tôi đo lường rất chặt chẽ sự ổn định của mô hình như là một phần của mô hình hóa và quy trình xác minh.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.