Ở đây tôi đang hỏi về những gì người khác thường làm để sử dụng kiểm tra chi bình phương cho kết quả lựa chọn tính năng trong kết quả học tập có giám sát. Nếu tôi hiểu chính xác, họ có kiểm tra tính độc lập giữa từng tính năng và kết quả và so sánh các giá trị p giữa các thử nghiệm cho từng tính năng không?
Trong http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,
Kiểm tra chi bình phương của Pearson là một kiểm tra thống kê được áp dụng cho các bộ dữ liệu phân loại để đánh giá khả năng có bất kỳ sự khác biệt quan sát nào giữa các bộ phát sinh do tình cờ.
...
Một thử nghiệm về tính độc lập đánh giá xem các quan sát được ghép nối trên hai biến, được biểu thị trong bảng dự phòng , có độc lập với nhau không (ví dụ: phản hồi bỏ phiếu từ những người có quốc tịch khác nhau để xem quốc tịch của một người có liên quan đến phản ứng không).
Vì vậy, hai biến có tính độc lập được kiểm tra bằng thử nghiệm là phân loại, hoặc rời rạc (cho phép ra lệnh bên cạnh phân loại), nhưng không liên tục?
Từ http://scikit-learn.org/urdy/modules/feature_selection.html , họ
thực hiện kiểm tra vào bộ dữ liệu iris để chỉ lấy hai tính năng tốt nhất.
Trong bộ dữ liệu mống mắt , tất cả các tính năng đều có giá trị bằng số và liên tục và kết quả là nhãn lớp (phân loại). Làm thế nào để kiểm tra độc lập chi bình phương áp dụng cho các tính năng liên tục?
Để áp dụng kiểm tra tính độc lập chi bình phương cho tập dữ liệu, trước tiên chúng ta phải chuyển đổi các tính năng liên tục thành các tính năng riêng biệt, bằng cách đóng gói (nghĩa là trước tiên phân tách các miền liên tục của các tính năng thành các thùng, sau đó thay thế các tính năng bằng các giá trị của các tính năng trong các thùng )?
Sự xuất hiện trong một số thùng tạo thành một tính năng đa quốc gia (có thể xảy ra hoặc không xảy ra trong mỗi thùng), vì vậy kiểm tra tính độc lập chi bình phương có thể áp dụng cho chúng, phải không?
Theo cách tôi đoán, chúng ta có thể áp dụng thử nghiệm độc lập chi bình phương cho các tính năng và kết quả dưới bất kỳ hình thức nào không , đúng không?
Đối với phần kết quả, chúng ta có thể chọn các tính năng không chỉ phân loại, mà còn cho hồi quy, bằng cách kiểm tra tính độc lập chi bình phương, bằng cách tạo ra kết quả liên tục, phải không?
Các trang web tìm hiểu scikit cũng nói
Tính toán thống kê chi bình phương giữa mỗi tính năng và lớp không âm .
Điểm này có thể được sử dụng để chọn các tính năng n_features có giá trị cao nhất cho thống kê chi bình phương thử nghiệm từ X, chỉ phải chứa các tính năng không âm như booleans hoặc tần số (ví dụ: số thuật ngữ trong phân loại tài liệu), liên quan đến các lớp học.
Tại sao bài kiểm tra yêu cầu các tính năng không âm?
Nếu các tính năng không có dấu hiệu nhưng phân loại hoặc rời rạc, thử nghiệm vẫn có thể áp dụng cho chúng không? (Xem phần 1 của tôi)
Nếu các tính năng là âm tính, chúng ta luôn có thể bin tên miền của chúng và thay thế chúng bằng sự xuất hiện của chúng (giống như những gì tôi đoán khi áp dụng thử nghiệm cho bộ dữ liệu mống mắt, xem phần 2), phải không?
Lưu ý: Tôi đoán Scikit Learn tuân theo các nguyên tắc chung và đó là những gì tôi đang yêu cầu ở đây. Nếu không, thì nó vẫn ổn.