Những loại lựa chọn tính năng có thể được sử dụng kiểm tra Chi vuông?


11
  1. Ở đây tôi đang hỏi về những gì người khác thường làm để sử dụng kiểm tra chi bình phương cho kết quả lựa chọn tính năng trong kết quả học tập có giám sát. Nếu tôi hiểu chính xác, họ có kiểm tra tính độc lập giữa từng tính năng và kết quả và so sánh các giá trị p giữa các thử nghiệm cho từng tính năng không?

  2. Trong http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,

    Kiểm tra chi bình phương của Pearson là một kiểm tra thống kê được áp dụng cho các bộ dữ liệu phân loại để đánh giá khả năng có bất kỳ sự khác biệt quan sát nào giữa các bộ phát sinh do tình cờ.

    ...

    Một thử nghiệm về tính độc lập đánh giá xem các quan sát được ghép nối trên hai biến, được biểu thị trong bảng dự phòng , có độc lập với nhau không (ví dụ: phản hồi bỏ phiếu từ những người có quốc tịch khác nhau để xem quốc tịch của một người có liên quan đến phản ứng không).

    Vì vậy, hai biến có tính độc lập được kiểm tra bằng thử nghiệm là phân loại, hoặc rời rạc (cho phép ra lệnh bên cạnh phân loại), nhưng không liên tục?

  3. Từ http://scikit-learn.org/urdy/modules/feature_selection.html , họ

    thực hiện kiểm tra vào bộ dữ liệu iris để chỉ lấy hai tính năng tốt nhất.χ2

    Trong bộ dữ liệu mống mắt , tất cả các tính năng đều có giá trị bằng số và liên tục và kết quả là nhãn lớp (phân loại). Làm thế nào để kiểm tra độc lập chi bình phương áp dụng cho các tính năng liên tục?

    Để áp dụng kiểm tra tính độc lập chi bình phương cho tập dữ liệu, trước tiên chúng ta phải chuyển đổi các tính năng liên tục thành các tính năng riêng biệt, bằng cách đóng gói (nghĩa là trước tiên phân tách các miền liên tục của các tính năng thành các thùng, sau đó thay thế các tính năng bằng các giá trị của các tính năng trong các thùng )?

    Sự xuất hiện trong một số thùng tạo thành một tính năng đa quốc gia (có thể xảy ra hoặc không xảy ra trong mỗi thùng), vì vậy kiểm tra tính độc lập chi bình phương có thể áp dụng cho chúng, phải không?

    Theo cách tôi đoán, chúng ta có thể áp dụng thử nghiệm độc lập chi bình phương cho các tính năng kết quả dưới bất kỳ hình thức nào không , đúng không?

    Đối với phần kết quả, chúng ta có thể chọn các tính năng không chỉ phân loại, mà còn cho hồi quy, bằng cách kiểm tra tính độc lập chi bình phương, bằng cách tạo ra kết quả liên tục, phải không?

  4. Các trang web tìm hiểu scikit cũng nói

    Tính toán thống kê chi bình phương giữa mỗi tính năng và lớp không âm .

    Điểm này có thể được sử dụng để chọn các tính năng n_features có giá trị cao nhất cho thống kê chi bình phương thử nghiệm từ X, chỉ phải chứa các tính năng không âm như booleans hoặc tần số (ví dụ: số thuật ngữ trong phân loại tài liệu), liên quan đến các lớp học.

    Tại sao bài kiểm tra yêu cầu các tính năng không âm?

    Nếu các tính năng không có dấu hiệu nhưng phân loại hoặc rời rạc, thử nghiệm vẫn có thể áp dụng cho chúng không? (Xem phần 1 của tôi)

    Nếu các tính năng là âm tính, chúng ta luôn có thể bin tên miền của chúng và thay thế chúng bằng sự xuất hiện của chúng (giống như những gì tôi đoán khi áp dụng thử nghiệm cho bộ dữ liệu mống mắt, xem phần 2), phải không?

Lưu ý: Tôi đoán Scikit Learn tuân theo các nguyên tắc chung và đó là những gì tôi đang yêu cầu ở đây. Nếu không, thì nó vẫn ổn.

Câu trả lời:


2

Tôi nghĩ một phần của sự nhầm lẫn của bạn là về loại biến mà bình phương có thể so sánh. Wikipedia nói như sau về điều này:

Nó kiểm tra một giả thuyết không nêu rõ rằng phân phối tần số của các sự kiện nhất định được quan sát trong một mẫu phù hợp với phân phối lý thuyết cụ thể.

Do đó, nó so sánh các phân phối tần số , còn được gọi là số đếm, còn được gọi là số không âm. Các phân phối tần số khác nhau được xác định bởi biến phân loại; tức là đối với mỗi giá trị của một biến phân loại cần phải có phân phối tần số có thể so sánh với các giá trị khác.

Có một số cách để có được phân phối tần số. Nó có thể là từ một biến phân loại thứ hai trong đó các lần xuất hiện với biến phân loại thứ nhất được tính để có được phân phối tần số riêng biệt. Một tùy chọn khác là sử dụng một biến số (nhiều) cho các giá trị khác nhau của biến phân loại, nó có thể (ví dụ) tổng các giá trị của biến số. Trong thực tế, nếu các biến phân loại được nhị phân thì cái trước là phiên bản cụ thể của cái sau.

Thí dụ

Như một ví dụ nhìn vào các bộ biến này:

x = ['mouse', 'cat', 'mouse', 'cat']
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

Các biến phân loại xycó thể được so sánh bằng cách đếm các lần xuất hiện và đây là những gì xảy ra với phép thử chi bình phương:

                 'mouse'    'cat'
'wild'              1         0
'domesticated'      1         2

Tuy nhiên, bạn cũng có thể nhị phân các giá trị của 'x' và nhận các biến sau:

x1 = [1, 0, 1, 0]
x2 = [0, 1, 0, 1]
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

Đếm các giá trị bây giờ bằng tổng các giá trị tương ứng với giá trị của z.

                 x1    x2
'wild'           1     0
'domesticated'   1     2

Như bạn có thể thấy một biến phân loại duy nhất ( x) hoặc nhiều biến số ( x1x2) được biểu diễn bằng nhau trong bảng dự phòng. Do đó, kiểm tra chi bình phương có thể được áp dụng trên một biến phân loại (nhãn trong sklearn) kết hợp với một biến phân loại khác hoặc nhiều biến số (các tính năng trong sklearn).


Vì vậy, nếu lựa chọn tính năng chi_sapes chỉ có thể được sử dụng cho các tính năng không âm (freq, Count, ect), điều đó có nghĩa gì đối với tình huống có một tính năng có giá trị âm? Chuyển đổi tính năng hoặc sử dụng phương pháp lựa chọn tính năng khác? Giả sử chúng tôi đã thực hiện nghiên cứu mới về Bộ dữ liệu Iris và chúng tôi có một tính năng đo lường sự thay đổi độ dài vùng kín mỗi ngày. Cuối cùng và sẽ có giá trị âm. Nhà máy sẽ khô héo và co lại tạo ra sự thay đổi tiêu cực về chiều dài. Có lẽ chúng ta đang cố gắng phân loại cây đó là gì bằng cách nó nhanh khô héo hoặc cái gì đó.
Arash Howaida

1
Bình phương chi dựa trên tỷ lệ của các giá trị (tức là phân phối tần số). Điều này được thực hiện bằng cách tính tổng các giá trị tính năng (nhị phân). Vì vậy, một phần của toàn bộ nên có một ý nghĩa. Với các giá trị âm, đây không phải là trường hợp.
Pieter
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.