Kiểm tra hoán vị ngẫu nhiên để lựa chọn tính năng


9

Tôi bối rối về phân tích hoán vị để lựa chọn tính năng trong bối cảnh hồi quy logistic.
Bạn có thể cung cấp một lời giải thích rõ ràng về thử nghiệm hoán vị ngẫu nhiên và cách áp dụng cho lựa chọn tính năng? Có thể với các thuật toán và ví dụ chính xác.

Cuối cùng, làm thế nào để so sánh với các phương pháp thu nhỏ khác như Lasso hay LAR?


5
Bạn có nghĩa là một cái gì đó như, ví dụ, trong đó các mục của một cột duy nhất của ma trận thiết kế được hoán vị, giữ phản hồi và các hiệp phương sai khác cố định? Nếu bạn có một tài liệu tham khảo cụ thể mà bạn đang sử dụng, có thể hữu ích để liệt kê nó.
hồng y

Tôi nghĩ rằng liên kết này citeseerx.ist.psu.edu/viewdoc/ trộm đề cập đến đúng kỹ thuật. Tôi hiện đang cố gắng liên lạc lại với giảng viên đã nói với tôi về phương pháp này ...
Ugo

Không quản lý để liên lạc lại với anh ấy (Donald Geman)
Ugo

2
có những điểm không rõ ràng trong câu hỏi của bạn mà bạn có thể muốn làm rõ. Trong bài báo được liên kết có một mô tả khá rõ ràng về thuật toán. Bạn có muốn hỏi một cái gì đó cụ thể về thuật toán này? Có phải đó là ý tưởng thực hiện lựa chọn tính năng bằng cách tính giá trị cận biên mà bạn muốn giải thích? Hơn nữa, bạn nên đặt câu hỏi Định nghĩa 2 trong bài báo. Đó là một yêu cầu không được hỗ trợ, có thể là một giả định hoạt động, nhưng giá trị p biên nhỏ không nói chung có liên quan. Nhân tiện, LAR thực hiện hồi quy tuyến tính và không thực sự cho các phản ứng nhị phân. pp
NRH

Câu trả lời:


10

(Không có nhiều thời gian bây giờ vì vậy tôi sẽ trả lời ngắn gọn và sau đó mở rộng sau)

Nói rằng chúng tôi đang xem xét một vấn đề phân loại nhị phân và có một tập huấn luyện mẫu 1 và n mẫu 2. Một bài kiểm tra hoán vị cho lựa chọn tính năng xem xét từng tính năng riêng lẻ. Thống kê kiểm tra θ , chẳng hạn như mức tăng thông tin hoặc chênh lệch chuẩn hóa giữa các phương tiện, được tính cho tính năng. Dữ liệu cho tính năng này sau đó được hoán vị ngẫu nhiên và được phân chia thành hai bộ, một kích thước m và một kích thước n . Các bài kiểm tra thống kê θ p sau đó được tính toán dựa trên phân vùng mới này pmnθmnθpp. Tùy thuộc vào độ phức tạp tính toán của vấn đề, điều này sau đó được lặp lại trên tất cả các phân vùng có thể có của tính năng thành hai bộ thứ tự n hoặc một tập hợp con ngẫu nhiên của các vấn đề này.mn

Bây giờ chúng ta đã thiết lập một bản phân phối qua , chúng tôi tính toán p-giá trị mà các quan sát kiểm tra thống kê θ nảy sinh từ một phân vùng ngẫu nhiên của tính năng này. Giả thuyết khống là các mẫu từ mỗi lớp đến từ cùng một phân phối cơ bản (tính năng này không liên quan).θpθ

Quá trình này được lặp lại trên tất cả các tính năng và sau đó tập hợp các tính năng được sử dụng để phân loại có thể được chọn theo hai cách:

  • Các tính năng có giá trị p thấp nhấtN
  • Tất cả các tính năng có giá trị p <ϵ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.