Tôi không chắc mình đã nhận được câu hỏi, nhưng vì tiêu đề yêu cầu giải thích các đường cong ROC, tôi sẽ thử.
Các đường cong ROC được sử dụng để xem trình phân loại của bạn có thể phân tách các ví dụ tích cực và tiêu cực tốt như thế nào và để xác định ngưỡng tốt nhất để phân tách chúng.
Để có thể sử dụng đường cong ROC, bộ phân loại của bạn phải được xếp hạng - nghĩa là, nó có thể xếp hạng các ví dụ sao cho những thứ có thứ hạng cao hơn có khả năng tích cực hơn. Ví dụ, Logistic Regression đưa ra xác suất, đây là điểm bạn có thể sử dụng để xếp hạng.
Vẽ đường cong ROC
Đưa ra một tập dữ liệu và phân loại xếp hạng:
- sắp xếp các ví dụ kiểm tra theo điểm từ cao nhất đến thấp nhất
- bắt đầu bằng(0,0)
- cho mỗi ví dụ theo thứ tự được sắp xếp
x
- nếu dương, di chuyển lênx1/pos
- nếu âm, di chuyển sang phảix1/neg
trong đó và là các phân số của các ví dụ tích cực và tiêu cực.posneg
Hình ảnh hoạt hình gif đẹp này sẽ minh họa quá trình này rõ ràng hơn
Trên biểu đồ này, -axis là tỷ lệ dương thực sự và -axis là tỷ lệ dương tính giả. Lưu ý đường chéo - đây là đường cơ sở, có thể thu được bằng một bộ phân loại ngẫu nhiên. Đường cong ROC của chúng tôi càng ở trên đường thì càng tốt.yx
Khu vực dưới ROC
Vùng bên dưới Đường cong ROC (bóng mờ) tự nhiên cho thấy đường cong từ đường cơ sở bao xa. Đối với đường cơ sở là 0,5 và đối với phân loại hoàn hảo, nó là 1.
Bạn có thể đọc thêm về AUC ROC trong câu hỏi này: AUC đại diện cho cái gì và nó là gì?
Chọn ngưỡng tốt nhất
Tôi sẽ phác thảo ngắn gọn quá trình chọn ngưỡng tốt nhất và có thể tìm thấy nhiều chi tiết hơn trong tài liệu tham khảo.
Để chọn ngưỡng tốt nhất, bạn xem từng điểm của đường cong ROC của mình dưới dạng phân loại riêng. Trình phân loại nhỏ này sử dụng điểm số mà điểm nhận được làm ranh giới giữa + và - (nghĩa là nó phân loại là + tất cả các điểm trên điểm hiện tại)
Tùy thuộc vào phần pos / neg trong tập dữ liệu của chúng tôi - song song với đường cơ sở trong trường hợp 50% / 50% - bạn xây dựng các dòng chính xác ISO và lấy độ chính xác cao nhất.
Đây là một hình ảnh minh họa điều đó và để biết thêm chi tiết tôi một lần nữa mời bạn tham khảo
Tài liệu tham khảo