Một số nguồn cho thấy có nhiều hậu quả tiêu cực của sự rời rạc (phân loại) các biến liên tục trước khi phân tích thống kê (mẫu tài liệu tham khảo [1] - [4] bên dưới).
Ngược lại [5] gợi ý rằng một số kỹ thuật học máy được biết là tạo ra kết quả tốt hơn khi các biến liên tục bị rời rạc (cũng lưu ý rằng các phương pháp phân biệt được giám sát thực hiện tốt hơn).
Tôi tò mò liệu có bất kỳ lợi ích hoặc biện minh được chấp nhận rộng rãi cho thực hành này từ góc độ thống kê?
Cụ thể, liệu có bất kỳ biện minh nào cho việc phân biệt các biến liên tục trong phân tích GLM không?
[1] Royston P, Altman DG, Sauerbrei W. Dichotomizing dự đoán liên tục trong hồi quy bội: một ý tưởng tồi. Stat Med 2006; 25: 127-41
[2] Brunner J, Austin PC. Lạm phát tỷ lệ lỗi loại I trong hồi quy bội khi các biến độc lập được đo bằng lỗi. Tạp chí Thống kê Canada 2009; 37 (1): 33-46
[3] Irwin JR, McClelland GH. Hậu quả tiêu cực của việc phân đôi các biến dự đoán liên tục. Tạp chí Nghiên cứu Marketing 2003; 40: 366 bóng371.
[4] Harrell Jr FE. Các vấn đề gây ra bằng cách phân loại các biến liên tục. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuity, 2004. Truy cập vào ngày 6.9.2004
[5] Kotsiantis, S.; Kanellopoulos, D. "Kỹ thuật phân biệt: Một khảo sát gần đây". GESTS Giao dịch quốc tế về Khoa học và Kỹ thuật Máy tính 32 (1): 47 Tắt58.