Tại sao tăng số lượng tính năng làm giảm hiệu suất?


12

Tôi đang cố gắng để có được một trực giác về lý do tại sao việc tăng số lượng các tính năng có thể làm giảm hiệu suất. Tôi hiện đang sử dụng trình phân loại LDA hoạt động tốt hơn trong số các tính năng nhất định nhưng tệ hơn khi xem xét nhiều tính năng hơn. Độ chính xác phân loại của tôi được thực hiện bằng cách sử dụng xval phân tầng 10 lần.

Có một trường hợp đơn giản khi một bộ phân loại sẽ hoạt động tốt hơn một cách đơn lẻ hơn là một cách đơn giản để có được một trực giác vật lý hoặc không gian của những gì đang xảy ra trong các chiều cao hơn này?


8
Như một nhận xét nhanh, việc thêm các yếu tố dự đoán không liên quan có thể làm giảm hiệu suất của dữ liệu mới - tăng phương sai của dự đoán (phù hợp hơn). Điều này là do bạn kết thúc phù hợp với tiếng ồn và làm loãng "tín hiệu thực".
B_Miner

Câu trả lời:


9

Xem " Một vấn đề về chiều: Một ví dụ đơn giản " - một bài viết rất ngắn và rất cũ của GV Trunk. Ông xem xét một vấn đề hai lớp, với các bản phân phối đẳng cấp có điều kiện Gaussian nơi các tính năng là tất cả có liên quan nhưng với giảm phù hợp. Ông cho thấy tỷ lệ lỗi của một bộ phân loại được đào tạo trên một mẫu hữu hạn hội tụ đến 0,5, trong khi lỗi Bayes tiến đến 0, khi số lượng các tính năng tăng lên.


(+1) Đó là một tài liệu tham khảo nhỏ dễ thương.
Đức hồng y

2

Điều này được đặt tên là " Lời nguyền của chiều ". Tôi không biết có bất kỳ lý do cụ thể nào đối với LDA nhưng nói chung có nhiều chiều về kết quả vectơ đặc trưng với nhu cầu về ranh giới quyết định phức tạp hơn. Có ranh giới phức tạp cũng đi kèm với một câu hỏi "Ở mức độ nào?" vì chúng tôi cũng xem xét phù hợp quá mức. Như một điểm khác, với các chiều bổ sung, độ phức tạp của thuật toán học tập cũng tăng lên. Do đó, làm việc với thuật toán học tương đối chậm với vector tính năng khổng lồ làm cho sự kiện công việc của bạn trở nên tồi tệ hơn. Ngoài kích thước, bạn có thể tăng khả năng ti có các tính năng tương quan, điều này không tốt cho nhiều thuật toán học tập như Mạng thần kinh hoặc một số thuật toán khác.

Bạn có thể đếm các lý do khác trong "Lời nguyền của chiều" nhưng thực tế là có đủ số lượng phiên bản với vectơ tính năng ngắn gọn được thực hiện theo một số thói quen lựa chọn tính năng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.