Tôi đang sử dụng trình phân loại vịnh ngây thơ để phân loại giữa hai nhóm dữ liệu. Một nhóm dữ liệu lớn hơn nhiều so với nhóm kia (trên 4 lần). Tôi đang sử dụng xác suất trước của từng nhóm trong phân loại.
Vấn đề là kết quả tôi nhận được có 0% tỷ lệ dương đúng và 0% tỷ lệ dương tính giả. Tôi đã nhận được kết quả tương tự khi tôi đặt trước 0,5 và 0,5.
Làm cách nào tôi có thể đặt ngưỡng của mình thành thứ gì đó tốt hơn để tôi có thể có kết quả cân bằng hơn?
Tôi đã có một vấn đề tương tự khi sử dụng phân loại hồi quy logistic. Tôi đã giải quyết nó bằng cách trừ các thuật ngữ trước khỏi sai lệch.
Khi tôi sử dụng Phân biệt tuyến tính của Fisher trên dữ liệu này, tôi sẽ nhận được kết quả tốt với ngưỡng được đặt ở giữa.
Tôi cho rằng có một số giải pháp chung cho vấn đề này, tôi không thể tìm thấy nó.
CẬP NHẬT: Tôi vừa nhận thấy rằng tôi phân loại quá mức. Hiệu suất trên tập huấn luyện là hoàn hảo (chính xác 100%).
Nếu tôi sử dụng các nhóm bằng nhau, thì bộ phân loại cũng bắt đầu phân loại thành nhóm "nhỏ", nhưng hiệu suất khá tệ (tệ hơn FLD hoặc LR).
CẬP NHẬT2: Tôi nghĩ vấn đề là tôi đã sử dụng ma trận hiệp phương sai đầy đủ. Chạy với ma trận hiệp phương sai chéo cho tôi kết quả "cân bằng" hơn.