Sự biện minh cho sự rời rạc không giám sát của các biến liên tục là gì?


8

Một số nguồn cho thấy có nhiều hậu quả tiêu cực của sự rời rạc (phân loại) các biến liên tục trước khi phân tích thống kê (mẫu tài liệu tham khảo [1] - [4] bên dưới).

Ngược lại [5] gợi ý rằng một số kỹ thuật học máy được biết là tạo ra kết quả tốt hơn khi các biến liên tục bị rời rạc (cũng lưu ý rằng các phương pháp phân biệt được giám sát thực hiện tốt hơn).

Tôi tò mò liệu có bất kỳ lợi ích hoặc biện minh được chấp nhận rộng rãi cho thực hành này từ góc độ thống kê?

Cụ thể, liệu có bất kỳ biện minh nào cho việc phân biệt các biến liên tục trong phân tích GLM không?



[1] Royston P, Altman DG, Sauerbrei W. Dichotomizing dự đoán liên tục trong hồi quy bội: một ý tưởng tồi. Stat Med 2006; 25: 127-41

[2] Brunner J, Austin PC. Lạm phát tỷ lệ lỗi loại I trong hồi quy bội khi các biến độc lập được đo bằng lỗi. Tạp chí Thống kê Canada 2009; 37 (1): 33-46

[3] Irwin JR, McClelland GH. Hậu quả tiêu cực của việc phân đôi các biến dự đoán liên tục. Tạp chí Nghiên cứu Marketing 2003; 40: 366 bóng371.

[4] Harrell Jr FE. Các vấn đề gây ra bằng cách phân loại các biến liên tục. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuity, 2004. Truy cập vào ngày 6.9.2004

[5] Kotsiantis, S.; Kanellopoulos, D. "Kỹ thuật phân biệt: Một khảo sát gần đây". GESTS Giao dịch quốc tế về Khoa học và Kỹ thuật Máy tính 32 (1): 47 Tắt58.


2
Phân biệt họ so với làm gì khác? Nếu phương án được coi là coi mối quan hệ giữa yếu tố dự đoán và phản ứng là tuyến tính thì không có gì đáng ngạc nhiên khi sự rời rạc đôi khi có thể mang lại sự phù hợp tốt hơn. Xem ở đây .
Scortchi - Phục hồi Monica

Nó có thể liên quan đến các tiêu chí khác nhau cho những gì 'tốt hơn' là.
Glen_b -Reinstate Monica

Câu trả lời:


8

Mục đích của các mô hình thống kê là mô hình hóa (gần đúng) một thực tế chưa biết, tiềm ẩn. Khi bạn rời rạc một cái gì đó liên tục một cách tự nhiên, bạn đang nói rằng tất cả các phản hồi cho một loạt các biến dự đoán là hoàn toàn giống nhau, sau đó có một bước nhảy đột ngột cho khoảng tiếp theo. Bạn có thực sự tin rằng thế giới tự nhiên hoạt động bằng cách có sự khác biệt lớn trong đáp ứng giữa các giá trị x là 9,999 và 10,001 trong khi không có sự khác biệt giữa 9,001 và 9,999 (giả sử một trong các khoảng là 9-10)? Tôi không thể nghĩ ra bất kỳ quy trình tự nhiên nào mà tôi sẽ xem xét làm việc hợp lý theo cách đó.

Bây giờ có nhiều quá trình tự nhiên hoạt động theo phương pháp phi tuyến tính, sự thay đổi từ 8 đến 9 trong công cụ dự đoán có thể tạo ra một sự thay đổi rất khác nhau trong phản ứng so với thay đổi từ 10 đến 11. Và do đó, một công cụ dự đoán rời rạc có thể phù hợp hơn một mối quan hệ tuyến tính, nhưng đó là bởi vì nó được cho phép nhiều mức độ tự do hơn. Tuy nhiên, có nhiều cách khác để cho phép các mức độ tự do bổ sung, chẳng hạn như đa thức hoặc spline, và các tùy chọn này cho phép chúng tôi xử phạt để có được mức độ mịn nhất định và duy trì một mức độ gần đúng hơn của quá trình tự nhiên cơ bản.


1

Chỉnh sửa: Do xu hướng của các câu trả lời khác mà tôi đang thấy, từ chối trách nhiệm ngắn: câu trả lời của tôi được thúc đẩy bởi quan điểm học máy chứ không phải mô hình thống kê.

  • Một số mô hình, chẳng hạn như Naive Bayes, không hoạt động với các tính năng liên tục. Phân biệt các tính năng có thể giúp sử dụng chúng thực hiện (nhiều) tốt hơn. Nói chung, các mô hình không dựa vào đặc tính "số" của tính năng (cây quyết định xuất hiện) không bị ảnh hưởng quá nhiều miễn là sự rời rạc không quá tàn bạo. Tuy nhiên, một số mô hình khác sẽ hoạt động kém hiệu quả nếu sự phân biệt quá quan trọng. Ví dụ, GLM sẽ hoàn toàn không có lợi ích gì từ quy trình.

  • Trong một số trường hợp, khi thời gian bộ nhớ / xử lý trở thành yếu tố giới hạn, tính năng rời rạc tính năng cho phép tổng hợp một tập dữ liệu, giảm kích thước và mức tiêu thụ thời gian bộ nhớ / tính toán của nó.

Vì vậy, điểm mấu chốt là nếu bạn không bị giới hạn về mặt tính toán và nếu mô hình của bạn không hoàn toàn yêu cầu các tính năng riêng biệt, thì đừng chạy tính năng rời rạc. Nếu không, bằng mọi cách xem xét nó.


6
Nên tránh một phương pháp không sử dụng tính chất số của biến ở bất kỳ tỷ lệ nào.
Frank Harrell

1
Đó là đơn giản sai. Cây quyết định, Rừng ngẫu nhiên, Gradient Boosted DT đều là các thuật toán xuất sắc và không tính đến tính chất số của các biến, ngoại trừ thứ tự của chúng. Naive Bayes thường có thể là một công cụ quá đủ cho các nhiệm vụ phân loại cơ bản.
Youloush

7
Có một số hiểu lầm. Trước tiên, bạn cho rằng sự rời rạc ít nhất sử dụng tính chất thứ tự của các yếu tố dự đoán liên tục; nó không. Sau đó, bạn nhầm lẫn giữa chế tạo trước (một thảm họa) với việc tạo thùng trong thuật toán dự đoán (một thảm họa nhỏ). Bạn cho rằng phân loại dẫn đến các quyết định tối ưu trái ngược với dự đoán. Bạn cho rằng phân loại đầu vào là con đường để đi, trái ngược với phân loại đầu ra (rủi ro dự đoán, sau đó áp dụng hàm mất mát để có quyết định tối ưu). Cuối cùng, bạn ngụ ý rằng nó ổn để làm cho các mối quan hệ trơn tru thực sự không liên tục.
Frank Harrell

3
Vì lỗi dự đoán là quy tắc chấm điểm chính xác không chính xác, tuyên bố đó nói rất nhiều về ML. Và tôi không biết nhiều nhà thống kê thực sự tìm kiếm một thực tế tiềm ẩn. Chúng tôi sẵn sàng phát triển các xấp xỉ hoặc các điểm độc lập khác nhau cho thực tế, cũng như chỉ đơn giản là để dữ liệu tự nói lên.
Frank Harrell

1
Các mối quan hệ mượt mà tồn tại như một sự thật tiềm ẩn trong hầu hết các bộ dữ liệu không chứa thời gian là yếu tố dự đoán duy nhất. Rõ ràng, các điểm dữ liệu là rời rạc. Điều đó hoàn toàn không liên quan gì đến việc bạn có chọn cách tiếp cận mô hình trơn tru hay không.
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.