xây dựng một mô hình phân loại cho dữ liệu nhị phân nghiêm ngặt


8

tôi có một bộ dữ liệu là nhị phân. mỗi bộ giá trị của biến nằm trong miền: true, false.

thuộc tính "đặc biệt" của tập dữ liệu này là phần lớn các giá trị là "sai".

tôi đã sử dụng một thuật toán học mạng bayes để học một mạng từ dữ liệu. tuy nhiên, đối với một trong các nút mục tiêu của tôi (nút quan trọng nhất, là cái chết), kết quả AUC không được tốt lắm; nó là một chút tốt hơn so với cơ hội. ngay cả giá trị tiên đoán tích cực (PPV), được đề xuất cho tôi trên CV, cũng không cạnh tranh với những gì được báo cáo trong tài liệu với các phương pháp khác. lưu ý rằng AUC (phân tích ROC) là điểm chuẩn điển hình được báo cáo trong lĩnh vực nghiên cứu lâm sàng này, nhưng tôi cũng sẵn sàng đề xuất về cách đánh giá phù hợp hơn mô hình phân loại nếu có bất kỳ ý tưởng nào khác.

vì vậy, tôi đã tự hỏi những mô hình phân loại nào khác mà tôi có thể thử cho loại dữ liệu này với thuộc tính này (chủ yếu là các giá trị sai).

  • sẽ hỗ trợ máy vector giúp? theo như tôi biết, SVM chỉ xử lý các biến liên tục - như các yếu tố dự đoán (mặc dù nó đã được điều chỉnh cho đa lớp). nhưng các biến của tôi là tất cả nhị phân.
  • một rừng ngẫu nhiên sẽ giúp đỡ?
  • hồi quy logistic sẽ áp dụng ở đây? theo như tôi biết, các yếu tố dự báo trong hồi quy logistic cũng liên tục. Có một phiên bản tổng quát cho các biến nhị phân như các yếu tố dự đoán không?

Ngoài hiệu suất phân loại, tôi nghi ngờ SVM và rừng ngẫu nhiên có thể vượt trội so với mạng bayes, nhưng vấn đề chuyển sang cách giải thích các mối quan hệ trong các mô hình này (đặc biệt là với các bác sĩ lâm sàng).


Điều này đã được hỏi nhiều lần, tôi đã trả lời các câu hỏi tương tự ở đây: stats.stackexchange.com/questions/78469/ mẹo và tại đây: stats.stackexchange.com/questions/67755/ và cách giải thích kết quả đầu ra, bạn nên kiểm tra tìm hiểu làm thế nào để giải thích các hiệu ứng cận biên của các biến giải thích của bạn trên biến mục tiêu của bạn. Kiểm tra ví dụ: hosho.ees.hokudai.ac.jp/~kubo/Rdoc/l Library / brandomForest / html / khăn
JEquihua

Nếu dữ liệu của bạn rất thưa thớt và nhìn chung khá nghèo nàn, bạn có thể muốn tìm một bộ phân loại hàng xóm gần nhất. Mặc dù hãy chắc chắn để cân nhắc các tính năng của bạn đúng cách.
Akavall

@Akavall bạn có thể vui lòng cung cấp cho một số gợi ý về trọng số các tính năng đúng cách? chúng đều là nhị phân (dự đoán và biến lớp). Tôi muốn gắn bó với PPV là trọng lượng chính, nhưng tôi cũng có thể sử dụng thông tin lẫn nhau. hoặc tôi cho rằng tôi có thể sử dụng bất kỳ số lượng phân tích liên kết bảng dự phòng.
Jane Wayne

@JaneWayne, hàng xóm gần nhất không làm gì về lựa chọn tính năng / trọng số tính năng; nếu các tính năng xấu hoặc không đúng trọng số thì thuật toán sẽ thực sự xấu, mặt khác nếu các tính năng được cân chính xác thì thuật toán đơn giản này có thể thực sự tốt. Tuy nhiên, cân đúng cách là không dễ dàng. Và giải pháp hiện tại của bạn có thể là tốt rồi. Nếu bạn biết điều gì đó về tập dữ liệu, bạn có thể tự gán trọng số lớn hơn cho một số tính năng. Hoặc nếu bạn có thể đánh giá hiệu suất của mô hình vào các thời điểm khác nhau, bạn có thể điều chỉnh một số loại thuật toán heuristic học để chọn
Akavall 18/03/2016

tính năng dựa trên hiệu suất. Tuy nhiên, ở đây bạn phải giả định rằng hàm mục tiêu bạn đang cố gắng tối đa hóa là tương đối trơn tru, và có một chi phí do khai thác và khai thác đánh đổi.
Akavall

Câu trả lời:


4

sẽ hỗ trợ máy vector giúp? theo như tôi biết, SVM chỉ xử lý các biến liên tục - như các yếu tố dự đoán ...

Biến nhị phân không phải là vấn đề đối với SVM. Ngay cả các hạt nhân chuyên dụng cũng tồn tại cho chính xác dữ liệu đó (hạt nhân Hamming, hạt nhân Tanimoto / Jaccard), mặc dù tôi không khuyên bạn nên sử dụng những hạt nhân đó nếu bạn không quen thuộc với các phương thức kernel.

hồi quy logistic sẽ áp dụng ở đây? theo như tôi biết, các yếu tố dự báo trong hồi quy logistic cũng liên tục

Hồi quy logistic hoạt động với các yếu tố dự đoán nhị phân. Nó có lẽ là lựa chọn tốt nhất của bạn.

làm thế nào để giải thích các mối quan hệ trong các mô hình này (đặc biệt là các bác sĩ lâm sàng).

Nếu bạn sử dụng SVM tuyến tính, việc giải thích những gì đang diễn ra khá đơn giản. Hồi quy logistic là một lựa chọn tốt hơn, mặc dù, vì hầu hết các bác sĩ lâm sàng thực sự biết các mô hình này (và theo ý tôi, tôi đã nghe nói về ).


1

Tôi muốn chia sẻ thử nghiệm phân loại khoảng 0,5 triệu dữ liệu nhị phân với phần lớn các giá trị sai. Tôi đã sử dụng tuyến tính SVM, cây phức tạp, LDA, QDA, hồi quy logistic, vv Tất cả các phương pháp này có hiệu quả khoảng 54%, không tốt. Theo giáo sư của tôi, các phương pháp phân loại có thể giúp tôi trong vấn đề này là Mạng nơ-ron, SVM bậc hai nhưng tôi chưa thử nghiệm chúng. Tôi hy vọng điều này có thể giúp đỡ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.