Bạn đúng cả hai tính. Xem trang của Frank Harrell tại đây để biết danh sách dài các vấn đề với các biến liên tục. Nếu bạn sử dụng một vài thùng, bạn sẽ vứt đi rất nhiều thông tin trong các công cụ dự đoán; Nếu bạn sử dụng nhiều, bạn có xu hướng phù hợp với những cái lắc lư trong những gì nên trơn tru, nếu không phải là tuyến tính, mối quan hệ và sử dụng nhiều mức độ tự do. Nói chung tốt hơn để sử dụng đa thức ( ) hoặc splines (đa thức piecewise tham gia trơn tru) cho các dự đoán. Binning thực sự chỉ là một ý tưởng tốt khi bạn mong đợi sự gián đoạn trong phản hồi tại các điểm cắt giảm, nhiệt độ cho biết nhiệt độ có gì đó sôi sục, hoặc độ tuổi hợp pháp để lái xe, và khi phản hồi không ổn định giữa chúng ..x+x2+…
Giá trị? Vwellwell, đó là một cách nhanh chóng và dễ dàng để tính đến độ cong mà không cần phải suy nghĩ về nó, và mô hình có thể đủ tốt cho những gì bạn đang sử dụng. Nó có xu hướng hoạt động tốt khi bạn có nhiều dữ liệu so với số lượng dự đoán, mỗi dự đoán được chia thành nhiều loại; trong trường hợp này trong mỗi dải dự đoán, phạm vi phản hồi là nhỏ & phản hồi trung bình được xác định chính xác.
[Chỉnh sửa để phản hồi ý kiến:
Đôi khi có các giới hạn tiêu chuẩn được sử dụng trong một trường cho một biến liên tục: ví dụ: trong đo huyết áp y học có thể được phân loại thành thấp, trung bình hoặc cao. Có thể có nhiều lý do tốt để sử dụng các giới hạn như vậy khi bạn trình bày hoặc áp dụng một mô hình. Cụ thể, các quy tắc quyết định thường dựa trên ít thông tin hơn là đi vào một mô hình, và có thể cần phải đơn giản để áp dụng. Nhưng nó không tuân theo việc các điểm giới hạn này phù hợp để tạo ra các yếu tố dự đoán khi bạn phù hợp với mô hình.
Giả sử một số phản ứng thay đổi liên tục với huyết áp. Nếu bạn xác định nhóm huyết áp cao là một yếu tố dự báo trong nghiên cứu của bạn, thì hiệu quả bạn ước tính là phản ứng trung bình đối với áp lực máu cụ thể của các cá nhân trong nhóm đó. Không phảimột ước tính về phản ứng trung bình của những người bị huyết áp cao trong dân số nói chung, hoặc của những người trong nhóm huyết áp cao trong một nghiên cứu khác, trừ khi bạn thực hiện các biện pháp cụ thể để làm như vậy. Nếu tôi biết sự phân phối huyết áp trong dân số nói chung, như tôi tưởng tượng, bạn sẽ làm tốt hơn để tính toán phản ứng trung bình của những người bị huyết áp cao trong dân số chung dựa trên dự đoán từ người mẫu có huyết áp như một biến số liên tục. Binning thô làm cho mô hình của bạn chỉ có thể khái quát.
Nói chung, nếu bạn có câu hỏi về hành vi phản hồi giữa các lần cắt, hãy phù hợp với mô hình tốt nhất trước tiên bạn có thể, và sau đó sử dụng nó để trả lời chúng.]
[Liên quan đến thuyết trình; Tôi nghĩ rằng đây là một cá trích đỏ:
(1) Dễ trình bày không biện minh cho các quyết định mô hình xấu. (Và trong trường hợp binning là một quyết định mô hình tốt, nó không cần biện minh thêm.) Chắc chắn điều này là hiển nhiên. Không ai từng khuyên nên lấy một tương tác quan trọng ra khỏi mô hình bởi vì thật khó để trình bày.
(2) Bất kể loại mô hình nào bạn phù hợp, bạn vẫn có thể trình bày kết quả của nó theo các danh mục nếu bạn nghĩ rằng nó sẽ hỗ trợ cho việc giải thích. Tuy nhiên ...
(3) Bạn phải cẩn thận để đảm bảo rằng nó không hỗ trợ việc giải thích sai , vì những lý do nêu trên.
(4) Trên thực tế không khó để trình bày các phản ứng phi tuyến tính. Ý kiến cá nhân, rõ ràng, và khán giả khác nhau; nhưng tôi chưa bao giờ thấy một biểu đồ các giá trị phản hồi được trang bị so với các giá trị dự đoán đánh đố ai đó chỉ vì nó cong. Tương tác, đăng nhập, hiệu ứng ngẫu nhiên, đa cộng đồng, ... Đây là những điều khó giải thích hơn nhiều.]
[Một điểm bổ sung được đưa ra bởi @Roland là tính chính xác của phép đo của các yếu tố dự đoán; anh ấy gợi ý, tôi nghĩ rằng việc phân loại có thể phù hợp khi chúng không đặc biệt chính xác. Ý thức thông thường có thể gợi ý rằng bạn không cải thiện vấn đề bằng cách nêu lại chúng thậm chí ít chính xác hơn, và lẽ thường sẽ đúng: MacCallum et al (2002), "Về thực hành biến đổi số lượng biến", Phương pháp tâm lý , 7 , 1, trang17 Từ19.]