Làm thế nào để giải thích một đường cong ROC?


13

Tôi đã áp dụng hồi quy logistic cho dữ liệu của mình trên SAS và đây là bảng phân loại và đường cong ROC.

nhập mô tả hình ảnh ở đây

Tôi cảm thấy thoải mái với các số liệu trong bảng phân loại, nhưng không chắc chắn chính xác những gì đường cong roc và khu vực bên dưới nó hiển thị. Bất kỳ lời giải thích sẽ được đánh giá rất cao.

Câu trả lời:


20

Khi bạn thực hiện hồi quy logistic, bạn được cung cấp hai lớp được mã hóa là 0 . Bây giờ, bạn tính các xác suất đưa ra một số phương sai giải thích một cá nhân thuộc về lớp được mã hóa là 1 . Nếu bây giờ bạn chọn ngưỡng xác suất và phân loại tất cả các cá nhân có xác suất lớn hơn ngưỡng này là loại 1 và thấp hơn là 010110, trong hầu hết các trường hợp, bạn sẽ mắc một số lỗi vì thông thường hai nhóm không thể bị phân biệt đối xử một cách hoàn hảo. Đối với ngưỡng này, bây giờ bạn có thể tính toán các lỗi của mình và cái gọi là độ nhạy và độ đặc hiệu. Nếu bạn làm điều này trong nhiều ngưỡng, bạn có thể xây dựng đường cong ROC bằng cách vẽ độ nhạy theo độ đặc hiệu 1 cho nhiều ngưỡng có thể. Khu vực dưới đường cong xuất hiện nếu bạn muốn so sánh các phương pháp khác nhau cố gắng phân biệt giữa hai lớp, ví dụ phân tích phân biệt hoặc mô hình probit. Bạn có thể xây dựng đường cong ROC cho tất cả các mô hình này và mô hình có diện tích cao nhất dưới đường cong có thể được xem là mô hình tốt nhất.

Nếu bạn cần hiểu sâu hơn, bạn cũng có thể đọc câu trả lời của một câu hỏi khác liên quan đến các đường cong ROC bằng cách nhấn vào đây.


Làm thế nào là khu vực dưới đường cong ROC khác với tỷ lệ chính xác trong bảng phân loại?
Günal

2
Bảng chỉ hiển thị đúng và không chính xác cho một ngưỡng. Tuy nhiên, đường cong AUROC là thước đo của phương pháp phân loại hoàn chỉnh và chính xác và không chính xác cho nhiều ngưỡng khác nhau.
Random_guy

Thật tốt khi biết điều đó!
Random_guy

6

AUC về cơ bản chỉ cho bạn biết tần suất rút ngẫu nhiên từ xác suất phản hồi dự đoán của bạn trên dữ liệu có nhãn 1 sẽ lớn hơn rút ngẫu nhiên từ xác suất phản hồi dự đoán của bạn trên dữ liệu có nhãn 0 của bạn.


6

Mô hình hồi quy logistic là một phương pháp ước lượng xác suất trực tiếp. Phân loại không có vai trò trong việc sử dụng nó. Bất kỳ phân loại nào không dựa trên việc đánh giá các tiện ích (chức năng mất / chi phí) đối với từng đối tượng là không phù hợp ngoại trừ trong trường hợp khẩn cấp rất đặc biệt. Đường cong ROC không hữu ích ở đây; không phải là độ nhạy hoặc độ đặc hiệu, giống như độ chính xác phân loại tổng thể, là các quy tắc chấm điểm chính xác không phù hợp được tối ưu hóa bởi một mô hình không có thật không phù hợp với ước tính khả năng tối đa.

c15pYp0,05


@Frank Harrell: Bạn có thể giải thích về tính toán liên quan đến việc đánh chặn cũng như nhận xét về biên độ lỗi. Cảm ơn!
julieth

@FrankHarrell lời khuyên của bạn rằng chúng tôi cần ít nhất 15p quan sát áp dụng nếu cuối cùng chúng tôi thực hiện hồi quy sườn để hiệu chỉnh mô hình? Sự hiểu biết của tôi là chúng ta thay thế p sau đó bằng chiều kích hiệu quả.
Lepidopterist

Chính xác, và tôi nói rằng bạn sử dụng hình phạt như hình phạt bậc hai (sườn núi) để ước tính các tham số, dẫn đến hiệu chuẩn tốt hơn
Frank Harrell

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.