Làm cách nào để tìm và đánh giá mức độ rời rạc tối ưu cho biến liên tục với tiêu chí ?


9

Tôi có một bộ dữ liệu với biến liên tục và biến mục tiêu nhị phân (0 và 1).

Tôi cần phải phân biệt các biến liên tục (đối với hồi quy logistic) đối với biến mục tiêu và với ràng buộc rằng tần số quan sát trong mỗi khoảng phải được cân bằng. Tôi đã thử các thuật toán học máy như Chi Merge, cây quyết định. Chi hợp nhất cho tôi các khoảng với các số rất không cân bằng trong mỗi khoảng (một khoảng với 3 quan sát và một số khác với 1000). Cây quyết định rất khó để giải thích.

Tôi đã đi đến kết luận rằng một sự rời rạc tối ưu sẽ tối đa hóa thống kê giữa biến rời rạc và biến mục tiêu và nên có các khoảng chứa cùng một lượng quan sát.χ2

Có một thuật toán để giải quyết điều này?

Đây là cách nó có thể trông giống như trong R (def là biến mục tiêu và x biến được rời rạc). Tôi đã tính của Tschuprow để đánh giá "mối tương quan" giữa biến được chuyển đổi và biến mục tiêu vì thống kê có xu hướng tăng theo số lượng khoảng. Tôi không chắc chắn nếu đây là cách đúng đắn.Tχ2

Có cách nào khác để đánh giá nếu sự rời rạc của tôi là tối ưu ngoài của Tschuprow (tăng khi số lượng lớp giảm)?T

chitest <- function(x){
  interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE)
  X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic
  #Tschuprow
  Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1))))
  print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup))
}

2
Bạn có thể biết điều này; nhưng, đối với bản ghi, (1) không cần thiết cũng không thường xuyên mong muốn phân biệt các yếu tố dự báo cho hồi quy logistic, & (2) sử dụng phản hồi để xác định các yếu tố dự đoán đưa ra sự thiên vị lạc quan vào ước tính hiệu suất dự đoán của mô hình của bạn, và nó do đó, rất quan trọng để xác nhận toàn bộ quy trình phù hợp (nghĩa là bao gồm cả phương pháp bạn sử dụng để hình thành các yếu tố dự đoán).
Scortchi - Phục hồi Monica

Ok, làm thế nào tôi có thể xác nhận sự rời rạc, làm thế nào để làm việc này?
Charlotte

Nếu bạn đang sử dụng, ví dụ như xác thực chéo, thì trong mỗi lần, bạn không chỉ thực hiện hồi quy logistic bằng cách sử dụng mức độ phân tách "tối ưu" của các yếu tố dự đoán được xác định từ toàn bộ mẫu, mà còn tính toán lại mức độ rời rạc "tối ưu".
Scortchi - Tái lập Monica

Câu trả lời:


8

Có nhiều cách có thể để loại bỏ một biến liên tục: xem [Garcia 2013]

Trên trang 739 tôi có thể thấy ít nhất 5 phương pháp dựa trên chi bình phương. Sự tối ưu của sự rời rạc thực sự phụ thuộc vào nhiệm vụ bạn muốn sử dụng biến rời rạc. Trong trường hợp của bạn hồi quy logistic. Và như đã thảo luận trong Garcia2013, việc tìm kiếm sự phân biệt tối ưu được đưa ra cho một nhiệm vụ là hoàn thành NP.

Có rất nhiều heuristic mặc dù. Trong bài báo này, họ thảo luận về ít nhất 50 trong số họ. Dựa trên nền tảng học máy của tôi (tôi đoán mọi người trong thống kê thích những thứ khác) Tôi thường thiên về phương pháp Độ dài mô tả tối thiểu (MDL) của Fayyad và Irani. Tôi thấy nó có sẵn trong gói R rời rạc

Như bạn đã nói, Chi bình phương thiên về số lượng khoảng thời gian cao và nhiều số liệu thống kê khác (vì mức tăng thông tin được sử dụng trong phương pháp MDL) là. Tuy nhiên, MDL cố gắng tìm ra sự đánh đổi tốt giữa mức tăng thông tin của biến rời rạc và lớp và độ phức tạp (số lượng khoảng) của biến bị rời rạc. Hãy thử một lần.


Liên kết Garcia 2013 của bạn dường như bị hỏng ... bạn có phiền khi đăng thêm chi tiết về bài viết này hoặc liên kết lại không?
Kiran K.

2
@KiranK. Cảm ơn vì đã cho tôi biết. Tôi đã sửa liên kết.
Simone
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.