Là đi từ dữ liệu liên tục để phân loại luôn luôn sai?

Khi tôi đọc về cách thiết lập dữ liệu của bạn, một điều tôi thường gặp là việc chuyển đổi một số dữ liệu liên tục thành dữ liệu phân loại không phải là một ý tưởng hay, vì bạn rất có thể đưa ra kết luận sai nếu các ngưỡng được xác định kém.

Tuy nhiên, tôi hiện có một số dữ liệu (giá trị PSA cho bệnh nhân ung thư tuyến tiền liệt), trong đó tôi nghĩ rằng sự đồng thuận chung là nếu bạn dưới 4 tuổi, bạn có thể không có nó, nếu bạn ở trên bạn có nguy cơ, và sau đó trên 10 và 20, bạn có thể có nó. Một cái gì đó như thế. Trong trường hợp đó, việc phân loại các giá trị PSA liên tục của tôi thành các nhóm giả sử 0-4, 4-10 và> 10 là không chính xác? Hoặc nó thực sự ổn vì các ngưỡng được "xác định rõ" để nói.

categorical-data continuous-data

— Denver Đăng
nguồn

Nó phụ thuộc (như bình thường). Chẳng hạn, nếu bạn đang nghiên cứu cách các bác sĩ sẽ đưa ra quyết định và họ đưa ra quyết định dựa trên các danh mục này, thì nó sẽ cho bạn sử dụng các danh mục tương tự. Nếu bạn đang nghiên cứu các hậu quả sinh học liên quan đến PSA tăng cao, thì rất có thể bạn không muốn phân loại PSA. Vì vậy, không có câu trả lời chắc chắn cho câu hỏi rộng của bạn "nó có ổn không".

— whuber

Bạn đang cố gắng làm gì với dữ liệu? Không phải các ranh giới như thế thường liên quan đến những gì bạn muốn tìm ra, để đưa chúng vào bằng tay đang cầu xin câu hỏi?

— RemcoGerlich

Tôi đang thiết lập dữ liệu cho mô hình hồi quy logistic. Vì vậy, câu hỏi chính là thực sự chỉ nên sử dụng dữ liệu liên tục, hoặc có dữ liệu rời rạc thay thế.

— Denver Đăng

Tôi không rõ dữ liệu 'liên tục' là gì. Nó không phải là thứ tồn tại trong thực tế. Không có thứ gọi là phép đo / thống kê với độ chính xác vô hạn.

— JimmyJames

@BillHorvath Vâng, tôi không phải là bác sĩ, vì vậy tôi không hoàn toàn chắc chắn làm thế nào điều này đã được xác định. Nếu bạn chỉ xem trang Wiki, nó chỉ ra một vị trí: "Mức PSA trong khoảng từ 4 đến 10 ng / mL (nanograms trên mililit) được coi là đáng ngờ và nên xem xét xác nhận PSA bất thường bằng xét nghiệm lặp lại. " và sau đó là một nơi khác: "Nguy cơ thấp: PSA <10, điểm Glory ≤ 6, và giai đoạn lâm sàng ≤ T2a Nguy cơ trung gian: PSA 10-20, điểm Glory 7, HOẶC giai đoạn lâm sàng T2b / c Nguy cơ cao: PSA> 20 , Điểm Glory ≥ 8, HOẶC giai đoạn lâm sàng ≥ T3 "

— Denver Dang

Câu trả lời:

Có một sự gián đoạn mạnh mẽ ở ngưỡng của bạn?

Chẳng hạn, giả sử bạn có hai bệnh nhân A và B có giá trị 3.9 và 4.1 và hai bệnh nhân C và D khác có giá trị 6,7 và 6,9. Là sự khác biệt về khả năng ung thư giữa A và B lớn hơn nhiều so với sự khác biệt tương ứng giữa C và D?

Nếu có, sau đó rời rạc có ý nghĩa.

Nếu không, thì ngưỡng của bạn có thể có ý nghĩa trong việc hiểu dữ liệu của bạn, nhưng chúng không được "xác định rõ" theo nghĩa có ý nghĩa thống kê. Đừng nản lòng. Thay vào đó, hãy sử dụng điểm kiểm tra của bạn "nguyên trạng" và nếu bạn nghi ngờ một số loại phi tuyến tính, hãy sử dụng spline .

Điều này là rất nhiều khuyến khích.

— S. Kolassa - Tái lập Monica
nguồn

Liên kết đó ở phía dưới có đầy đủ các điểm tuyệt vời. Độc giả tương lai của câu trả lời này nên kiểm tra nó.

— eric_kernfeld

Tôi nghĩ rằng sự rời rạc không có ý nghĩa trừ khi có một bước nhảy lớn trong kết quả tại thời điểm nghỉ được đề xuất VÀ nếu kết quả tương đối đồng nhất trong các nhóm đó. Mặt khác, có nhiều cách tốt hơn để tiếp cận "bước nhảy" trong chức năng @Stephan Kolassa

— LSC

Tôi nghĩ rằng câu trả lời tiêu chuẩn là nó luôn xấu vì bạn mất thông tin trong quá trình này. Thật khó để tin rằng có bất kỳ trường hợp nào bạn sẽ đạt được bất cứ điều gì từ việc lấy dữ liệu khoảng thời gian tự nhiên và làm cho nó phân loại.

— người dùng54285
nguồn

Tình huống thích hợp sẽ là khi có sự gián đoạn thực sự trong mối quan hệ của x cụ thể đó với DV và trong "phạm trù" kết quả tương đối đồng nhất.

— LSC