Số lượng tính năng so với số lượng quan sát


26

Có bất kỳ giấy tờ / sách / ý tưởng nào về mối quan hệ giữa số lượng tính năng và số lượng quan sát cần có để đào tạo một bộ phân loại "mạnh mẽ" không?

Ví dụ: giả sử tôi có 1000 tính năng và 10 quan sát từ hai lớp dưới dạng tập huấn luyện và 10 quan sát khác dưới dạng tập kiểm thử. Tôi huấn luyện một số phân loại X và nó mang lại cho tôi độ nhạy 90% và độ đặc hiệu 90% trên bộ thử nghiệm. Hãy nói rằng tôi hài lòng với độ chính xác này và dựa vào đó tôi có thể nói nó là một bộ phân loại tốt. Mặt khác, tôi đã xấp xỉ một hàm gồm 1000 biến chỉ sử dụng 10 điểm, có vẻ như không ... rất mạnh?

Câu trả lời:


20

Những gì bạn đã nhấn vào đây là lời nguyền của chiều hoặc vấn đề p >> n (trong đó p là yếu tố dự đoán và n là quan sát). Đã có nhiều kỹ thuật được phát triển trong nhiều năm để giải quyết vấn đề này. Bạn có thể sử dụng AIC hoặc BIC để xử phạt các mô hình có nhiều dự đoán hơn. Bạn có thể chọn các bộ biến ngẫu nhiên và khẳng định tầm quan trọng của chúng bằng cách sử dụng xác thực chéo . Bạn có thể sử dụng hồi quy sườn , lasso hoặc lưới đàn hồi để chuẩn hóa . Hoặc bạn có thể chọn một kỹ thuật, chẳng hạn như máy vectơ hỗ trợ hoặc rừng ngẫu nhiên có khả năng xử lý tốt với một số lượng lớn các yếu tố dự đoán.

Thành thật mà nói, giải pháp phụ thuộc vào bản chất cụ thể của vấn đề bạn đang cố gắng giải quyết.


9

+1-10,000001*tôitôi, không có lượng dữ liệu đào tạo nào sẽ cung cấp cho bạn một bộ phân loại hữu ích. Vào cuối ngày, số lượng mẫu bạn cần cho một số tính năng nhất định phụ thuộc vào cách phân phối dữ liệu, nói chung, bạn càng có nhiều tính năng, bạn càng cần nhiều dữ liệu để mô tả phân phối dữ liệu đầy đủ (theo cấp số nhân của số lượng tính năng nếu bạn không may mắn - hãy xem lời nguyền về chiều hướng được đề cập bởi Zach).

Nếu bạn sử dụng chính quy hóa, thì về nguyên tắc, (giới hạn trên), lỗi tổng quát hóa không phụ thuộc vào số lượng tính năng (xem công việc của Vapnik trên máy vectơ hỗ trợ). Tuy nhiên, vấn đề tìm kiếm một giá trị tốt cho tham số chính quy (xác thực chéo là tiện dụng).


9

Bạn có thể quá ấn tượng từ mô hình cổ điển, vốn dễ bị tổn thương trước các vấn đề giống như nghịch lý Runge và do đó đòi hỏi một số điều chỉnh phân tách trong xử lý hậu kỳ.
Tuy nhiên, trong trường hợp học máy, ý tưởng bao gồm sự mạnh mẽ như một mục đích tối ưu hóa mô hình chỉ là cốt lõi của toàn bộ miền (thường được biểu thị là độ chính xác trên dữ liệu không nhìn thấy). Vì vậy, miễn là bạn biết mô hình của bạn hoạt động tốt (ví dụ từ CV) có lẽ không có gì phải bận tâm.

p»n trong trường hợp của ML là các thuộc tính không liên quan - chủ yếu là bởi vì một số bộ trong số họ có thể trở nên hữu dụng hơn cho tái sinh quyết định hơn so với những người thực sự có liên quan do một số biến động ngẫu nhiên. Rõ ràng vấn đề này không liên quan gì đến sự kỳ thị, nhưng, giống như trong trường hợp cổ điển, kết thúc trong sự mất mát khủng khiếp của sức mạnh khái quát hóa. Làm thế nào để giải quyết nó là một câu chuyện khác, được gọi là lựa chọn tính năng - nhưng ý tưởng chung là xử lý trước dữ liệu để loại bỏ nhiễu thay vì đặt các ràng buộc lên mô hình.


1

Một trong những cuốn sách hoàn toàn có giá trị nhất của tôi trong những năm qua là Cẩm nang của Tinsley và Brown . Có nhiều nơi trong cuốn sách mà chủ đề này được thảo luận, bởi các tác giả đóng góp khác nhau.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.