Làm thế nào để rút ra cách giải thích xác suất của AUC?


14

Tại sao khu vực dưới đường cong ROC có xác suất phân loại sẽ xếp hạng một trường hợp "dương" được chọn ngẫu nhiên (từ các dự đoán được truy xuất) cao hơn so với "dương" được chọn ngẫu nhiên (từ lớp dương ban đầu)? Làm thế nào để chứng minh tuyên bố này một cách toán học bằng cách sử dụng tích phân, đưa ra các CDF và PDF của các phân phối lớp tích cực và tiêu cực thực sự?


2
Tôi đã viết một bằng chứng rất cơ bản về điều này ở đây: madrury.github.io/jekyll/update/statistic/2017/06/21/ Kẻ
Matthew Drury

Câu trả lời:


10

Điều đầu tiên, chúng ta hãy cố gắng xác định khu vực dưới đường cong ROC chính thức. Một số giả định và định nghĩa:

  • Chúng tôi có một bộ phân loại xác suất tạo ra "điểm" s (x), trong đó x là các tính năng và s là hàm đơn điệu tăng chung của xác suất ước tính p (class = 1 | x).

  • k = { 0 , 1 } F k ( s )fk(s) , với : = pdf của điểm số cho lớp k, với CDFk={0,1}Fk(s)

  • Việc phân loại một quan sát mới thu được từ việc ép điểm s đến ngưỡng t

Hơn nữa, để thuận tiện cho toán học, hãy xem xét lớp dương (phát hiện sự kiện) k = 0 và âm k = 1. Trong cài đặt này, chúng ta có thể định nghĩa:

  • Nhớ lại (còn gọi là Độ nhạy, còn gọi là TPR) : (tỷ lệ các trường hợp dương tính được phân loại là dương tính)F0(t)
  • Độ đặc hiệu (còn gọi là TNR) : (tỷ lệ các trường hợp tiêu cực được phân loại là âm tính)1F1(t)
  • FPR (còn gọi là Rơi) : 1 - TNR =F1(t)

Đường cong ROC sau đó là một âm mưu của so với . Đặt , chúng ta có thể chính thức xác định khu vực bên dưới đường cong ROC là: Thay đổi biến ( ): F 1 ( t ) v = F 1 ( s ) A U CF0(t)F1(t)v=F1(s)d v = f 1 ( s ) d s A U C = - F 0 ( s ) f 1 ( s ) d s

AUC=01F0(F11(v))dv
dv=f1(s)ds
AUC=F0(s)f1(s)ds

Công thức này có thể dễ dàng được coi là xác suất để một thành viên được rút ngẫu nhiên của lớp 0 sẽ tạo ra điểm thấp hơn điểm của một thành viên được rút ngẫu nhiên của lớp 1.

Bằng chứng này được lấy từ: https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf


5

Câu trả lời của @ alebu là tuyệt vời. Nhưng ký hiệu của nó là không chuẩn và sử dụng 0 cho lớp dương và 1 cho lớp âm. Dưới đây là kết quả cho ký hiệu chuẩn (0 cho lớp âm và 1 cho lớp dương):

Pdf và cdf của điểm cho lớp âm: vàf0(s)F0(s)

Pdf và cdf của điểm cho lớp tích cực: vàf1(s)F1(s)

FPR =x(s)=1F0(s)

TPR =y(s)=1F1(s)

AUC=01y(x)dx=01y(x(τ))dx(τ)=+y(τ)x(τ)dτ=+(1F1(τ))(f0(τ))dτ=+(1F1(τ))f0(τ)dτ

trong đó là viết tắt của ngưỡng. Người ta có thể áp dụng cách giải thích trong câu trả lời của @ alebu cho biểu thức cuối cùng.τ


1

Cách tính AUC-ROC là vẽ đồ thị TPR và FPR làm ngưỡng, được thay đổi và tính diện tích dưới đường cong đó. Nhưng, tại sao khu vực này dưới đường cong giống như xác suất này? Hãy giả sử như sau:τ

  1. A là phân phối điểm mà mô hình tạo ra cho các điểm dữ liệu thực sự thuộc lớp dương.
  2. AB là phân phối điểm mà mô hình tạo ra cho các điểm dữ liệu thực sự thuộc lớp âm (chúng tôi muốn điểm này nằm ở bên trái của ).A
  3. τ là ngưỡng cắt. Nếu một điểm dữ liệu nhận được điểm cao hơn điểm này, thì điểm đó được dự đoán là thuộc về lớp tích cực. Mặt khác, nó được dự đoán là thuộc lớp phủ định.

Lưu ý rằng TPR (thu hồi) được đưa ra bởi: và FPR (bụi phóng xạ) được đưa ra là: .P(A>τ)P(B>τ)

Bây giờ, chúng ta vẽ TPR trên trục y và FPR trên trục x, vẽ đường cong cho nhiều khác nhau và tính diện tích dưới đường cong này ( ).τAUC

Chúng tôi nhận được:

AUC=01TPR(x)dx=01P(A>τ(x))dx
trong đó là FPR. Bây giờ, một cách để tính tích phân này là coi là thuộc phân phối đồng đều. Trong trường hợp đó, nó đơn giản trở thành kỳ vọng của .xxTPR

(1)AUC=Ex[P(A>τ(x))]
nếu chúng tôi xem xét .xU[0,1)

Bây giờ, ở đây chỉ làxFPR

x=FPR=P(B>τ(x))
Vì chúng tôi coi là từ một phân phối đồng đều,x

P(B>τ(x))U
=>P(B<τ(x))(1U)U
(2)=>FB(τ(x))U

Nhưng chúng ta biết từ nghịch đảo pháp luật mà đối với bất kỳ biến ngẫu nhiên , nếu sau đó . Điều này diễn ra sau khi lấy bất kỳ biến ngẫu nhiên nào và áp dụng CDF của chính nó vào nó dẫn đến thống nhất.XFX(Y)UYX

FX(X)=P(FX(x)<X)=P(X<FX1(X))=FXFX1(X)=X
và điều này chỉ giữ cho thống nhất.

Sử dụng thực tế này trong phương trình (2) cho chúng ta:

τ(x)B

Thay thế điều này vào phương trình (1) chúng ta nhận được:

AUC=Ex(P(A>B))=P(A>B)

Nói cách khác, khu vực dưới đường cong là xác suất để một mẫu dương tính ngẫu nhiên sẽ có điểm cao hơn một mẫu âm tính ngẫu nhiên.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.