Có ai có manh mối tại sao tôi nhận được nhiều thông tin sai lệch hơn là phủ định sai (tích cực là nhóm thiểu số) không? Cảm ơn trước sự giúp đỡ của bạn!
Bởi vì tích cực là tầng lớp thiểu số. Có rất nhiều ví dụ tiêu cực có thể trở thành dương tính giả. Ngược lại, có ít ví dụ tích cực có thể trở thành tiêu cực sai.
Nhớ lại rằng Nhớ lại = Độ nhạy= TP( TP+ FN)
Độ nhạy (Tỷ lệ dương tính thật) có liên quan đến Tỷ lệ dương tính giả (độ đặc hiệu 1) như được hiển thị bằng đường cong ROC. Ở một thái cực, bạn gọi mọi ví dụ đều tích cực và có độ nhạy 100% với 100% FPR. Mặt khác, bạn gọi không có ví dụ tích cực và có độ nhạy 0% với FPR 0%. Khi lớp tích cực là thiểu số, thậm chí một FPR tương đối nhỏ (mà bạn có thể có vì bạn có mức thu hồi cao = độ nhạy = TPR) sẽ kết thúc gây ra số lượng FP cao (vì có rất nhiều ví dụ tiêu cực).
Từ
Chính xác= =TP( TP+FP)
Ngay cả ở mức FPR tương đối thấp, FP sẽ áp đảo TP nếu số lượng ví dụ tiêu cực lớn hơn nhiều.
Ngoài ra,
Phân loại tích cực:C+
Ví dụ tích cực:Ôi+
Chính xác =P( Ô+| C+) = P( C+| Ôi+) P( Ô+)P( C+)
P (O +) thấp khi lớp dương nhỏ.
Có ai trong số các bạn có một số lời khuyên tôi có thể làm gì để cải thiện độ chính xác của mình mà không làm tổn thương đến việc thu hồi của tôi không?
Như @rinspy đã đề cập, GBC hoạt động tốt theo kinh nghiệm của tôi. Tuy nhiên, nó sẽ chậm hơn SVC với hạt nhân tuyến tính, nhưng bạn có thể tạo ra những cây rất nông để tăng tốc độ. Ngoài ra, nhiều tính năng hơn hoặc nhiều quan sát hơn có thể giúp ích (ví dụ: có thể có một số tính năng hiện chưa được phân tích luôn được đặt thành một số giá trị trong tất cả các FP hiện tại của bạn).
Nó cũng có thể có giá trị vẽ đường cong ROC và đường cong hiệu chuẩn. Nó có thể là trường hợp mặc dù bộ phân loại có độ chính xác thấp, nó có thể dẫn đến một ước tính xác suất rất hữu ích. Ví dụ, chỉ cần biết rằng một ổ cứng có thể có xác suất thất bại tăng gấp 500 lần, mặc dù xác suất tuyệt đối là khá nhỏ, có thể là thông tin quan trọng.
Ngoài ra, độ chính xác thấp về cơ bản có nghĩa là bộ phân loại trả về rất nhiều dương tính giả. Tuy nhiên, điều này có thể không quá tệ nếu giá trị dương tính giả là rẻ.