(Không có nhiều thời gian bây giờ vì vậy tôi sẽ trả lời ngắn gọn và sau đó mở rộng sau)
Nói rằng chúng tôi đang xem xét một vấn đề phân loại nhị phân và có một tập huấn luyện mẫu 1 và n mẫu 2. Một bài kiểm tra hoán vị cho lựa chọn tính năng xem xét từng tính năng riêng lẻ. Thống kê kiểm tra θ , chẳng hạn như mức tăng thông tin hoặc chênh lệch chuẩn hóa giữa các phương tiện, được tính cho tính năng. Dữ liệu cho tính năng này sau đó được hoán vị ngẫu nhiên và được phân chia thành hai bộ, một kích thước m và một kích thước n . Các bài kiểm tra thống kê θ p sau đó được tính toán dựa trên phân vùng mới này pmnθmnθpp. Tùy thuộc vào độ phức tạp tính toán của vấn đề, điều này sau đó được lặp lại trên tất cả các phân vùng có thể có của tính năng thành hai bộ thứ tự và n hoặc một tập hợp con ngẫu nhiên của các vấn đề này.mn
Bây giờ chúng ta đã thiết lập một bản phân phối qua , chúng tôi tính toán p-giá trị mà các quan sát kiểm tra thống kê θ nảy sinh từ một phân vùng ngẫu nhiên của tính năng này. Giả thuyết khống là các mẫu từ mỗi lớp đến từ cùng một phân phối cơ bản (tính năng này không liên quan).θpθ
Quá trình này được lặp lại trên tất cả các tính năng và sau đó tập hợp các tính năng được sử dụng để phân loại có thể được chọn theo hai cách:
- Các tính năng có giá trị p thấp nhấtN
- Tất cả các tính năng có giá trị p <ϵ