tôi có một bộ dữ liệu là nhị phân. mỗi bộ giá trị của biến nằm trong miền: true, false.
thuộc tính "đặc biệt" của tập dữ liệu này là phần lớn các giá trị là "sai".
tôi đã sử dụng một thuật toán học mạng bayes để học một mạng từ dữ liệu. tuy nhiên, đối với một trong các nút mục tiêu của tôi (nút quan trọng nhất, là cái chết), kết quả AUC không được tốt lắm; nó là một chút tốt hơn so với cơ hội. ngay cả giá trị tiên đoán tích cực (PPV), được đề xuất cho tôi trên CV, cũng không cạnh tranh với những gì được báo cáo trong tài liệu với các phương pháp khác. lưu ý rằng AUC (phân tích ROC) là điểm chuẩn điển hình được báo cáo trong lĩnh vực nghiên cứu lâm sàng này, nhưng tôi cũng sẵn sàng đề xuất về cách đánh giá phù hợp hơn mô hình phân loại nếu có bất kỳ ý tưởng nào khác.
vì vậy, tôi đã tự hỏi những mô hình phân loại nào khác mà tôi có thể thử cho loại dữ liệu này với thuộc tính này (chủ yếu là các giá trị sai).
- sẽ hỗ trợ máy vector giúp? theo như tôi biết, SVM chỉ xử lý các biến liên tục - như các yếu tố dự đoán (mặc dù nó đã được điều chỉnh cho đa lớp). nhưng các biến của tôi là tất cả nhị phân.
- một rừng ngẫu nhiên sẽ giúp đỡ?
- hồi quy logistic sẽ áp dụng ở đây? theo như tôi biết, các yếu tố dự báo trong hồi quy logistic cũng liên tục. Có một phiên bản tổng quát cho các biến nhị phân như các yếu tố dự đoán không?
Ngoài hiệu suất phân loại, tôi nghi ngờ SVM và rừng ngẫu nhiên có thể vượt trội so với mạng bayes, nhưng vấn đề chuyển sang cách giải thích các mối quan hệ trong các mô hình này (đặc biệt là với các bác sĩ lâm sàng).