Kiểm tra chi bình phương là một kiểm tra thống kê về tính độc lập để xác định sự phụ thuộc của hai biến. Nó chia sẻ sự tương đồng với hệ số xác định, R². Tuy nhiên, kiểm tra chi bình phương chỉ áp dụng cho dữ liệu phân loại hoặc danh nghĩa trong khi R² chỉ áp dụng cho dữ liệu số.
Từ định nghĩa, của chi-vuông chúng ta có thể dễ dàng suy ra việc áp dụng kỹ thuật chi-vuông trong lựa chọn tính năng. Giả sử bạn có một biến mục tiêu (nghĩa là nhãn lớp) và một số tính năng khác (biến tính năng) mô tả từng mẫu của dữ liệu. Bây giờ, chúng tôi tính toán thống kê chi bình phương giữa mọi biến tính năng và biến mục tiêu và quan sát sự tồn tại của mối quan hệ giữa các biến và mục tiêu. Nếu biến mục tiêu độc lập với biến tính năng, chúng ta có thể loại bỏ biến tính năng đó. Nếu chúng phụ thuộc, biến tính năng là rất quan trọng.
Chi tiết toán học được mô tả ở đây: http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html
Đối với các biến liên tục, chi bình phương có thể được áp dụng sau khi "Binning" các biến.
Một ví dụ trong R, được sao chép một cách đáng xấu hổ từ FSelector
# Use HouseVotes84 data from mlbench package
library(mlbench)# For data
library(FSelector)#For method
data(HouseVotes84)
#Calculate the chi square statistics
weights<- chi.squared(Class~., HouseVotes84)
# Print the results
print(weights)
# Select top five variables
subset<- cutoff.k(weights, 5)
# Print the final formula that can be used in classification
f<- as.simple.formula(subset, "Class")
print(f)
Không liên quan đến quá nhiều trong việc lựa chọn tính năng nhưng video bên dưới thảo luận chi tiết về hình vuông https://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8