Tìm kiếm cao và thấp và không thể tìm ra AUC, như liên quan đến dự đoán, là viết tắt của hay phương tiện.
Tìm kiếm cao và thấp và không thể tìm ra AUC, như liên quan đến dự đoán, là viết tắt của hay phương tiện.
Câu trả lời:
AUC được sử dụng hầu hết thời gian để có nghĩa là AUROC, đó là một thực tiễn tồi vì như Marc Claesen đã chỉ ra AUC là mơ hồ (có thể là bất kỳ đường cong nào) trong khi AUROC thì không.
AUROC có một số cách hiểu tương đương :
Đi xa hơn: Làm thế nào để rút ra cách giải thích xác suất của AUROC?
Giả sử chúng ta có một phân loại xác suất, nhị phân như hồi quy logistic.
Trước khi trình bày đường cong ROC (= Đường cong đặc tính hoạt động của người nhận), phải hiểu khái niệm ma trận nhầm lẫn . Khi chúng tôi đưa ra dự đoán nhị phân, có thể có 4 loại kết quả:
Để có được ma trận nhầm lẫn, chúng tôi xem xét tất cả các dự đoán được đưa ra bởi mô hình và tính xem có bao nhiêu lần mỗi loại trong số 4 loại kết quả đó xảy ra:
Trong ví dụ này về ma trận nhầm lẫn, trong số 50 điểm dữ liệu được phân loại, 45 điểm được phân loại chính xác và 5 điểm được phân loại sai.
Vì để so sánh hai mô hình khác nhau, sẽ thuận tiện hơn khi có một số liệu đơn lẻ hơn là một số liệu, chúng tôi tính hai số liệu từ ma trận nhầm lẫn, sau này chúng tôi sẽ kết hợp thành một:
Hình dưới đây cho thấy AUROC đồ họa:
Trong hình này, vùng màu xanh lam tương ứng với Vùng bên dưới đường cong của Đặc tính vận hành máy thu (AUROC). Đường đứt nét trong đường chéo chúng tôi trình bày đường cong ROC của một yếu tố dự đoán ngẫu nhiên: nó có AUROC là 0,5. Công cụ dự đoán ngẫu nhiên thường được sử dụng làm đường cơ sở để xem liệu mô hình có hữu ích hay không.
Nếu bạn muốn có được một số kinh nghiệm trực tiếp:
Mặc dù tôi đến bữa tiệc hơi muộn, nhưng đây là 5 xu của tôi. @FranckDernoncourt (+1) đã đề cập đến các cách giải thích có thể có của AUC ROC và từ ưa thích của tôi là từ đầu tiên trong danh sách của anh ấy (tôi sử dụng các từ khác nhau, nhưng nó giống nhau):
Xem xét ví dụ này (auc = 0,68):
Hãy thử mô phỏng nó: rút ra các ví dụ tích cực và tiêu cực ngẫu nhiên và sau đó tính tỷ lệ các trường hợp khi dương có điểm cao hơn âm
cls = c('P', 'P', 'N', 'P', 'P', 'P', 'N', 'N', 'P', 'N', 'P',
'N', 'P', 'N', 'N', 'N', 'P', 'N', 'P', 'N')
score = c(0.9, 0.8, 0.7, 0.6, 0.55, 0.51, 0.49, 0.43, 0.42, 0.39, 0.33,
0.31, 0.23, 0.22, 0.19, 0.15, 0.12, 0.11, 0.04, 0.01)
pos = score[cls == 'P']
neg = score[cls == 'N']
set.seed(14)
p = replicate(50000, sample(pos, size=1) > sample(neg, size=1))
mean(p)
Và chúng tôi nhận được 0,67926. Khá gần phải không?
Nhân tiện, trong RI thường sử dụng gói ROCR để vẽ các đường cong ROC và tính toán AUC.
library('ROCR')
pred = prediction(score, cls)
roc = performance(pred, "tpr", "fpr")
plot(roc, lwd=2, colorize=TRUE)
lines(x=c(0, 1), y=c(0, 1), col="black", lwd=1)
auc = performance(pred, "auc")
auc = unlist(auc@y.values)
auc
Những cân nhắc quan trọng không được bao gồm trong bất kỳ cuộc thảo luận nào. Các quy trình được thảo luận ở trên mời các ngưỡng không phù hợp và sử dụng các quy tắc chấm điểm chính xác (tỷ lệ) không chính xác được tối ưu hóa bằng cách chọn các tính năng sai và cho chúng các trọng số sai.
Sự lưỡng phân của các dự đoán liên tục bay trước mặt lý thuyết quyết định tối ưu. Đường cong ROC không cung cấp thông tin chi tiết có thể hành động. Họ đã trở thành bắt buộc mà không có nhà nghiên cứu kiểm tra lợi ích. Họ có một mực rất lớn: tỷ lệ thông tin.
Các quyết định tối ưu không xem xét "tích cực" và "tiêu cực" mà là xác suất ước tính của kết quả. Hàm tiện ích / chi phí / tổn thất, không có vai trò trong xây dựng ROC do đó sự vô dụng của ROCs, được sử dụng để chuyển ước tính rủi ro thành quyết định tối ưu (ví dụ, tổn thất dự kiến thấp nhất).
Mục tiêu của một mô hình thống kê thường là đưa ra dự đoán và nhà phân tích thường nên dừng ở đó vì nhà phân tích có thể không biết chức năng mất. Các thành phần chính của dự đoán để xác thực không thiên vị (ví dụ: sử dụng bootstrap) là phân biệt dự đoán (một cách bán tốt để đo lường đây là xác suất phù hợp xảy ra bằng với diện tích theo ROC nhưng có thể dễ hiểu hơn nếu bạn không không vẽ ROC) và đường cong hiệu chuẩn. Xác nhận hiệu chuẩn là thực sự, thực sự cần thiết nếu bạn đang sử dụng dự đoán trên quy mô tuyệt đối.
Xem chương Mất thông tin trong Thống kê sinh học cho nghiên cứu y sinh và các chương khác để biết thêm thông tin.
AUC là viết tắt cho khu vực dưới đường cong . Nó được sử dụng trong phân tích phân loại để xác định mô hình nào được sử dụng dự đoán các lớp tốt nhất.
Một ví dụ về ứng dụng của nó là các đường cong ROC. Ở đây, tỷ lệ dương thực sự được vạch ra so với tỷ lệ dương tính giả. Một ví dụ dưới đây. AUC càng gần với mô hình đến 1 thì càng tốt. Vì vậy, các mô hình có AUC cao hơn được ưa thích hơn các mô hình có AUC thấp hơn.
Xin lưu ý, cũng có các phương pháp khác ngoài các đường cong ROC nhưng chúng cũng liên quan đến tỷ lệ dương và sai thực sự, ví dụ: thu hồi chính xác, các đường cong F1-Điểm hoặc Lorenz.
auc
thẻ bạn đã sử dụng: stats.stackexchange.com/questions/tagged/auc