Giả sử chúng ta có một trình phân loại SVM, làm thế nào để chúng ta tạo đường cong ROC? (Giống như trên lý thuyết) (vì chúng tôi đang tạo TPR và FPR với mỗi ngưỡng). Và làm thế nào để chúng ta xác định ngưỡng tối ưu cho trình phân loại SVM này?
Giả sử chúng ta có một trình phân loại SVM, làm thế nào để chúng ta tạo đường cong ROC? (Giống như trên lý thuyết) (vì chúng tôi đang tạo TPR và FPR với mỗi ngưỡng). Và làm thế nào để chúng ta xác định ngưỡng tối ưu cho trình phân loại SVM này?
Câu trả lời:
Sử dụng trình phân loại SVM để phân loại một tập hợp các ví dụ được chú thích và "một điểm" trên không gian ROC dựa trên một dự đoán của các ví dụ có thể được xác định. Giả sử số lượng ví dụ là 200, đầu tiên đếm số ví dụ của bốn trường hợp.
Sau đó tính toán TPR (Tỷ lệ dương thực sự) và FPR (Tỷ lệ dương tính giả). và Trên không gian ROC, trục x là FPR và trục y là TPR. Vì vậy, điểm được lấy.
Để vẽ đường cong ROC, chỉ cần
(1) Điều chỉnh một số giá trị ngưỡng kiểm soát số lượng ví dụ được gắn nhãn đúng hoặc saiF P R = 28 / ( 28 + 44 ) = 0,389 ( 0,389 , 0,5547 )
Ví dụ: nếu nồng độ protein nhất định trên α% biểu thị một bệnh, các giá trị khác nhau của α mang lại các giá trị TPR và FPR cuối cùng khác nhau. Các giá trị ngưỡng có thể được xác định đơn giản theo cách tương tự như tìm kiếm lưới; các ví dụ đào tạo nhãn với các giá trị ngưỡng khác nhau, phân loại đào tạo với các bộ ví dụ được gắn nhãn khác nhau, chạy trình phân loại trên dữ liệu thử nghiệm, tính toán các giá trị FPR và chọn các giá trị ngưỡng bao phủ thấp (gần 0) và cao (gần 1) FPR các giá trị, nghĩa là gần với 0, 0,05, 0,1, ..., 0,95, 1
(2) Tạo nhiều bộ ví dụ chú thích
(3) Chạy trình phân loại trên các tập hợp ví dụ
(4) Tính điểm (FPR, TPR) cho mỗi người trong số họ
(5) Vẽ đường cong ROC cuối cùng
Một số chi tiết có thể được kiểm tra trong http://en.wikipedia.org/wiki/Receiver_operating_characteristic .
Bên cạnh đó, hai liên kết này rất hữu ích về cách xác định ngưỡng tối ưu. Một phương pháp đơn giản là lấy một phương pháp có tổng tối đa tỷ lệ âm tính dương và sai thực sự. Các tiêu chí tốt hơn khác có thể bao gồm các biến số khác liên quan đến các ngưỡng khác nhau như chi phí tài chính, v.v ...
http://www.medicalbiostatistic.com/roccurve.pdf
http://www.kovcomp.co.uk/support/XL-Tut/life-ROC -curves-nhận-vận hành-đặc trưng.html
Một cách thực sự dễ dàng để chọn ngưỡng là lấy các giá trị dự đoán trung bình của các trường hợp dương tính cho một bộ thử nghiệm. Điều này trở thành ngưỡng của bạn.
Ngưỡng tương đối gần với cùng ngưỡng bạn sẽ nhận được bằng cách sử dụng đường cong roc trong đó tỷ lệ dương thực sự (tpr) và 1 - tỷ lệ dương tính giả (fpr) trùng nhau. Chữ thập 1-fpr này tối đa hóa tích cực thực sự trong khi giảm thiểu âm tính giả.
Việc lựa chọn ngưỡng phụ thuộc vào tầm quan trọng của vấn đề phân loại TPR và FPR. Ví dụ: nếu phân loại của bạn sẽ quyết định nghi phạm hình sự nào sẽ nhận án tử hình, thì dương tính giả là rất xấu (những người vô tội sẽ bị giết!). Do đó, bạn sẽ chọn ngưỡng mang lại FPR thấp trong khi vẫn giữ TPR hợp lý (để bạn thực sự bắt được một số tội phạm thực sự). Nếu không có mối quan tâm bên ngoài về TPR thấp hoặc FPR cao, một lựa chọn là cân bằng chúng bằng cách chọn ngưỡng tối đa hóa .