Khi tôi đọc về cách thiết lập dữ liệu của bạn, một điều tôi thường gặp là việc chuyển đổi một số dữ liệu liên tục thành dữ liệu phân loại không phải là một ý tưởng hay, vì bạn rất có thể đưa ra kết luận sai nếu các ngưỡng được xác định kém.
Tuy nhiên, tôi hiện có một số dữ liệu (giá trị PSA cho bệnh nhân ung thư tuyến tiền liệt), trong đó tôi nghĩ rằng sự đồng thuận chung là nếu bạn dưới 4 tuổi, bạn có thể không có nó, nếu bạn ở trên bạn có nguy cơ, và sau đó trên 10 và 20, bạn có thể có nó. Một cái gì đó như thế. Trong trường hợp đó, việc phân loại các giá trị PSA liên tục của tôi thành các nhóm giả sử 0-4, 4-10 và> 10 là không chính xác? Hoặc nó thực sự ổn vì các ngưỡng được "xác định rõ" để nói.