Cách tính AUC-ROC là vẽ đồ thị TPR và FPR làm ngưỡng, được thay đổi và tính diện tích dưới đường cong đó. Nhưng, tại sao khu vực này dưới đường cong giống như xác suất này? Hãy giả sử như sau:τ
- A là phân phối điểm mà mô hình tạo ra cho các điểm dữ liệu thực sự thuộc lớp dương.
- AB là phân phối điểm mà mô hình tạo ra cho các điểm dữ liệu thực sự thuộc lớp âm (chúng tôi muốn điểm này nằm ở bên trái của ).A
- τ là ngưỡng cắt. Nếu một điểm dữ liệu nhận được điểm cao hơn điểm này, thì điểm đó được dự đoán là thuộc về lớp tích cực. Mặt khác, nó được dự đoán là thuộc lớp phủ định.
Lưu ý rằng TPR (thu hồi) được đưa ra bởi: và FPR (bụi phóng xạ) được đưa ra là: .P(A>τ)P(B>τ)
Bây giờ, chúng ta vẽ TPR trên trục y và FPR trên trục x, vẽ đường cong cho nhiều khác nhau và tính diện tích dưới đường cong này ( ).τAUC
Chúng tôi nhận được:
AUC=∫10TPR(x)dx=∫10P(A>τ(x))dx
trong đó là FPR. Bây giờ, một cách để tính tích phân này là coi là thuộc phân phối đồng đều. Trong trường hợp đó, nó đơn giản trở thành kỳ vọng của .
xxTPR
AUC=Ex[P(A>τ(x))](1)
nếu chúng tôi xem xét .
x∼U[0,1)
Bây giờ, ở đây chỉ làxFPR
x=FPR=P(B>τ(x))
Vì chúng tôi coi là từ một phân phối đồng đều,
x
P(B>τ(x))∼U
=>P(B<τ(x))∼(1−U)∼U
=>FB(τ(x))∼U(2)
Nhưng chúng ta biết từ nghịch đảo pháp luật mà đối với bất kỳ biến ngẫu nhiên , nếu sau đó . Điều này diễn ra sau khi lấy bất kỳ biến ngẫu nhiên nào và áp dụng CDF của chính nó vào nó dẫn đến thống nhất.XFX(Y)∼UY∼X
FX(X)=P(FX(x)<X)=P(X<F−1X(X))=FXF−1X(X)=X
và điều này chỉ giữ cho thống nhất.
Sử dụng thực tế này trong phương trình (2) cho chúng ta:
τ(x)∼B
Thay thế điều này vào phương trình (1) chúng ta nhận được:
AUC=Ex(P(A>B))=P(A>B)
Nói cách khác, khu vực dưới đường cong là xác suất để một mẫu dương tính ngẫu nhiên sẽ có điểm cao hơn một mẫu âm tính ngẫu nhiên.