Tôi có một bộ dữ liệu với biến liên tục và biến mục tiêu nhị phân (0 và 1).
Tôi cần phải phân biệt các biến liên tục (đối với hồi quy logistic) đối với biến mục tiêu và với ràng buộc rằng tần số quan sát trong mỗi khoảng phải được cân bằng. Tôi đã thử các thuật toán học máy như Chi Merge, cây quyết định. Chi hợp nhất cho tôi các khoảng với các số rất không cân bằng trong mỗi khoảng (một khoảng với 3 quan sát và một số khác với 1000). Cây quyết định rất khó để giải thích.
Tôi đã đi đến kết luận rằng một sự rời rạc tối ưu sẽ tối đa hóa thống kê giữa biến rời rạc và biến mục tiêu và nên có các khoảng chứa cùng một lượng quan sát.
Có một thuật toán để giải quyết điều này?
Đây là cách nó có thể trông giống như trong R (def là biến mục tiêu và x biến được rời rạc). Tôi đã tính của Tschuprow để đánh giá "mối tương quan" giữa biến được chuyển đổi và biến mục tiêu vì thống kê có xu hướng tăng theo số lượng khoảng. Tôi không chắc chắn nếu đây là cách đúng đắn.
Có cách nào khác để đánh giá nếu sự rời rạc của tôi là tối ưu ngoài của Tschuprow (tăng khi số lượng lớp giảm)?
chitest <- function(x){
interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE)
X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic
#Tschuprow
Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1))))
print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup))
}