Đường cong chính xác và thu hồi


159

Tôi hiểu sự khác biệt chính thức giữa chúng, điều tôi muốn biết là khi sử dụng cái này so với cái kia có liên quan hơn.

  • Có phải họ luôn cung cấp cái nhìn sâu sắc bổ sung về hiệu suất của một hệ thống phân loại / phát hiện nhất định?
  • Khi nào thì hợp lý để cung cấp cả hai, nói, trong một bài báo? thay vì chỉ một?
  • Có bất kỳ mô tả thay thế nào (có thể hiện đại hơn) nắm bắt các khía cạnh liên quan của cả ROC và thu hồi chính xác cho một hệ thống phân loại không?

Tôi quan tâm đến các đối số cho cả trường hợp nhị phân và đa lớp (ví dụ như trường hợp một so với tất cả).


7
Bài viết này chỉ phải xuất hiện trong một bối cảnh: biostat.wisc.edu/~page/rocpr.pdf

2
Tôi có thể sử dụng cái này cho một "phích cắm" để đề cập đến luận điểm của riêng tôi ở đây ... Trong Leitner (2012) tôi đã đề xuất một số liệu "Độ chính xác trung bình đo được F" (xem trang 65) là trung bình hài hòa của F- đo lường và độ chính xác trung bình. Tức là, sự kết hợp của một số liệu đánh giá được thiết lập với số liệu đánh giá được xếp hạng. Trong luận án, tôi đã chỉ ra rằng tối đa hóa điểm FAP trên tập huấn luyện có thể được sử dụng để xác định điểm cắt tốt nhất để phân định một nhiệm vụ truy xuất thông tin không bị ràng buộc (sử dụng 100 lần chạy BioCreative!).
fnl

1
Đây là một cuộc thảo luận tốt khác về đường cong AUC-ROC và PR trên một tập dữ liệu không cân bằng. Nó có kết luận giống như những gì dsimcha nói. Khi bạn quan tâm nhiều hơn về trường hợp hiếm gặp, bạn nên sử dụng PR.
YC

Câu trả lời:


207

Sự khác biệt chính là các đường cong ROC sẽ giống nhau cho dù xác suất cơ sở là bao nhiêu, nhưng đường cong PR có thể hữu ích hơn trong thực tế đối với các vấn đề hoặc loại vấn đề kim tiêm trong đó lớp "dương" thú vị hơn âm tính lớp học.

Y^Y

Precision=P(Y=1|Y^=1)Recall=Sensitivity=P(Y^=1|Y=1)Specificity=P(Y^=0|Y=0)
P(Y=1)P(Y=1). Tuy nhiên, nó có thể hữu ích hơn trong thực tế nếu bạn chỉ quan tâm đến một dân số có xác suất nền đã biết và lớp "dương" thú vị hơn nhiều so với lớp "âm". (Độ chính xác của IIRC là phổ biến trong trường truy xuất tài liệu, trong trường hợp này.) Điều này là do nó trực tiếp trả lời câu hỏi, "Xác suất mà đây là một cú đánh thực sự được phân loại của tôi nói là gì?".

P(Y=1)

IMHO khi viết một bài báo, bạn nên cung cấp bất kỳ đường cong nào trả lời câu hỏi bạn muốn trả lời (hoặc bất kỳ câu hỏi nào có lợi hơn cho phương pháp của bạn, nếu bạn hoài nghi). Nếu câu hỏi của bạn là: "Kết quả tích cực từ phân loại của tôi có ý nghĩa như thế nào với các xác suất cơ bản của vấn đề của tôi ?", Hãy sử dụng đường cong PR. Nếu câu hỏi của bạn là, "Trình phân loại này có thể được dự kiến ​​sẽ hoạt động tốt như thế nào , nói chung, ở nhiều xác suất cơ sở khác nhau ?", Hãy đi với một đường cong ROC.


10
đó là một lời giải thích tuyệt vời
Amelio Vazquez-Reina

5
+1, cái nhìn sâu sắc về các giải thích xác suất của Độ chính xác, Nhớ lại và Tính cụ thể.
Zhubarb

2
Thật là một câu trả lời! Ước gì tôi có thể đạt được số phiếu lên gấp đôi.
Anh chàng London

6
Chỉ trong trường hợp điều này không rõ ràng từ nhận xét trước đây của tôi: Câu trả lời này là sai , cũng như các đường cong ROC sử dụng tính đặc hiệu. Xem, ví dụ: Giới thiệu về phân tích ROC - cũng gợi ý về sự thiếu sót của họ như được ghi lại trong câu trả lời của tôi: "Nhiều miền trong thế giới thực bị chi phối bởi số lượng lớn các trường hợp tiêu cực, do đó hiệu suất ở phía bên trái của biểu đồ ROC trở thành thú vị hơn."
fnl

2
+0,5 @fnl. Mặc dù không sai rõ ràng, tôi nghĩ rằng câu trả lời bị thiếu điểm của câu hỏi; việc giải thích xác suất là rất đáng hoan nghênh nhưng nó không liên quan đến câu hỏi cốt lõi. Ngoài ra, tôi không thể đưa ra một ví dụ thực tế chung chung trong đó câu hỏi: " Kết quả tích cực có ý nghĩa như thế nào từ phân loại của tôi với các xác suất cơ bản của vấn đề của tôi? " Không thể áp dụng được. Các " nói chung " quan điểm của ROC-AUC chỉ là quá mờ. (Không cần phải nói rằng không nên sử dụng mệnh giá để xây dựng mô hình cuối cùng)
usεr11852

26

Dưới đây là kết luận từ một bài báo của Davis & Goadrich giải thích mối quan hệ giữa không gian ROC và PR. Họ trả lời hai câu hỏi đầu tiên:

Đầu tiên, đối với bất kỳ tập dữ liệu nào, đường cong ROC và đường cong PR cho một thuật toán nhất định có chứa các điểm giống nhau. Sự tương đương này, dẫn đến định lý đáng ngạc nhiên rằng một đường cong chiếm ưu thế trong không gian ROC khi và chỉ khi nó chiếm ưu thế trong không gian PR. Thứ hai, như một hệ quả của định lý, chúng tôi cho thấy sự tồn tại của không gian PR tương tự với vỏ lồi trong không gian ROC, mà chúng ta gọi là đường cong PR có thể đạt được. Đáng chú ý, khi xây dựng đường cong PR có thể đạt được, người ta sẽ loại bỏ chính xác các điểm giống nhau bởi vỏ tàu lồi trong không gian ROC. Do đó, chúng ta có thể tính toán hiệu quả đường cong PR có thể đạt được. [...] Cuối cùng, chúng tôi cho thấy rằng một thuật toán tối ưu hóa khu vực dưới đường cong ROC không được đảm bảo để tối ưu hóa khu vực dưới đường cong PR.

Nói cách khác, về nguyên tắc, ROC và PR đều phù hợp như nhau để so sánh kết quả. Nhưng đối với trường hợp ví dụ về kết quả của 20 lần truy cập và 1980 bỏ lỡ, chúng cho thấy sự khác biệt có thể khá quyết liệt, như trong Hình 11 và 12.

Hình 11 và 12 từ Davis và Goadrich

Kết quả / đường cong (I) mô tả một kết quả trong đó 10 trong số 20 lần truy cập nằm trong mười thứ hạng hàng đầu và 10 lần truy cập còn lại sau đó được trải đều trên 1500 cấp bậc đầu tiên. Resut (II) mô tả một kết quả trong đó 20 lần truy cập được trải đều trên 500 (trong số 2000) đầu tiên. Vì vậy, trong trường hợp kết quả "hình dạng" như (I) thích hợp hơn, ưu tiên này có thể phân biệt rõ ràng trong không gian PR, trong khi AUC ROC của hai kết quả gần bằng nhau.


1
Các biểu đồ này không phản ánh (rời rạc) tình huống được mô tả, sẽ hiển thị các bước trong các đường cong ROC mỗi khi gặp phải một cú đánh (sau 10 lần đầu tiên cho đường cong I). ROCCH sẽ trông như thế này với Convex Hull. Tương tự như vậy đối với PR, Precision sẽ tăng một notch mỗi khi tìm thấy lần truy cập, sau đó phân rã trong các lần bỏ lỡ, bắt đầu từ (0,0) cho không có gì được dự đoán (trên ngưỡng) nếu Độ chính xác được xác định là 0 tại thời điểm này (0 / 0) - đường cong II như được hiển thị là Độ chính xác tối đa không phải là độ chính xác ở mỗi ngưỡng (và do đó gọi lại).
David MW Powers

1
Đây thực sự là Hình 7 trong phiên bản của bài báo mà tôi tìm thấy. Bài viết thực sự nội suy đường cong PR bằng đường cong ROC. Lưu ý rằng kết quả thống trị dựa trên giả định rằng việc thu hồi là khác không, điều này không xảy ra cho đến khi lần truy cập đầu tiên được tìm thấy và Chính xác (như được định nghĩa trong bài báo) chính thức không được xác định (0/0) cho đến lúc đó.
David MW Powers

1
Đúng, sự thiếu phân biệt chính xác là vấn đề (mặc dù một âm mưu như thế này có thể xảy ra nếu tính trung bình trên một số lượng lớn các lần chạy). Tuy nhiên, kết quả của bài báo ít có ý nghĩa hơn bạn mong đợi vì các vấn đề không xác định và không quan trọng như bạn mong đợi khi bạn chỉ hiểu kết quả về mặt thay đổi tỷ lệ. Tôi sẽ không bao giờ sử dụng PR, nhưng đôi khi tôi sẽ mở rộng quy mô thành ROC hoặc tương đương sử dụng PN.
David MW Powers

1
Đầu tiên, các đồ thị của Hình 7 (11 so với 12) là không liên quan - chúng không phải là đồ thị bước cho một hệ thống được đào tạo (vì các ví dụ tích cực vượt quá ngưỡng giảm), nhưng tương ứng với giới hạn trung bình khi số lượng hệ thống KHÁC BIỆT tiến tới vô hạn. Độ chính xác và thu hồi thứ hai được mô tả cho tìm kiếm trên web và cả IGNORE hoàn toàn số lượng âm bản thực (giả định lớn) (Prec = TP / PP và Rec = TP / RP). Thứ ba, biểu đồ Chính xác và Thu hồi thực sự chỉ hiển thị độ lệch đối ứng (1 / PP) so với tỷ lệ đối ứng (1 / RP) cho một cấp độ TP cụ thể (nếu bạn dừng tìm kiếm web tại các lần truy cập chính xác của TP).
David MW Powers

5
OK, vì vậy sau khi xóa tất cả những nghi ngờ của tôi, tôi nghĩ cần phải khuyên độc giả rằng tôi tin rằng câu trả lời @DavidMWPowers nên được ưu tiên hơn tôi.
fnl

12

Có rất nhiều hiểu lầm về đánh giá. Một phần của điều này xuất phát từ cách tiếp cận Machine Learning khi cố gắng tối ưu hóa các thuật toán trên các bộ dữ liệu, không có hứng thú thực sự với dữ liệu.

Trong bối cảnh y tế, đó là về kết quả của thế giới thực - ví dụ như bạn cứu được bao nhiêu người khỏi chết. Trong ngữ cảnh y tế Độ nhạy (TPR) được sử dụng để xem có bao nhiêu trường hợp dương tính được chọn chính xác (giảm thiểu tỷ lệ bị bỏ qua là âm tính giả = FNR) trong khi Độ đặc hiệu (TNR) được sử dụng để xem có bao nhiêu trường hợp âm tính chính xác đã loại bỏ (giảm thiểu tỷ lệ được tìm thấy là dương tính giả = FPR). Một số bệnh có tỷ lệ mắc là một trong một triệu. Do đó, nếu bạn luôn dự đoán tiêu cực, bạn có Độ chính xác là 0,999999 - điều này đạt được bởi người học ZeroR đơn giản chỉ dự đoán lớp tối đa. Nếu chúng tôi xem xét Thu hồi và Chính xác để dự đoán rằng bạn không có bệnh, thì chúng tôi có Recall = 1 và Precision = 0.999999 cho ZeroR. Tất nhiên, nếu bạn đảo ngược + ve và -ve và cố gắng dự đoán rằng một người mắc bệnh ZeroR, bạn sẽ nhận được Recall = 0 và Precision = undef (vì bạn thậm chí không đưa ra dự đoán tích cực, nhưng mọi người thường định nghĩa Chính xác là 0 trong trường hợp này trường hợp). Lưu ý rằng Recall (+ ve Recall) và Inverse Recall (-ve Recall) và TPR, FPR, TNR & FNR liên quan luôn được xác định bởi vì chúng tôi chỉ giải quyết vấn đề vì chúng tôi biết có hai lớp để phân biệt và chúng tôi cố tình cung cấp ví dụ về mỗi.

Lưu ý sự khác biệt lớn giữa ung thư bị mất trong bối cảnh y tế (ai đó chết và bạn bị kiện) so với thiếu một bài báo trong tìm kiếm trên web (rất có thể một trong những người khác sẽ tham chiếu nó nếu nó quan trọng). Trong cả hai trường hợp, các lỗi này được đặc trưng là âm tính giả, so với số lượng lớn âm tính. Trong trường hợp tìm kiếm trên web, chúng tôi sẽ tự động nhận được một lượng lớn âm tính thực sự đơn giản chỉ vì chúng tôi chỉ hiển thị một số lượng nhỏ kết quả (ví dụ 10 hoặc 100) và không được hiển thị không thực sự được coi là dự đoán phủ định (có thể là 101 ), trong khi trong trường hợp thử nghiệm ung thư, chúng tôi có kết quả cho mỗi người và không giống như tìm kiếm trên web, chúng tôi chủ động kiểm soát mức âm tính giả (tỷ lệ).

Vì vậy, ROC đang khám phá sự đánh đổi giữa các dương tính thật (so với âm tính giả là tỷ lệ của dương tính thật) và dương tính giả (so với âm tính thực như là một tỷ lệ của âm tính thực). Nó tương đương với việc so sánh Độ nhạy (+ ve Recall) và Độ đặc hiệu (-ve Recall). Ngoài ra còn có một biểu đồ PN trông giống như chúng ta vẽ đồ thị TP vs FP thay vì TPR so với FPR - nhưng vì chúng ta tạo ra ô vuông, sự khác biệt duy nhất là các số chúng ta đặt trên thang đo. Chúng có liên quan bởi các hằng số TPR = TP / RP, FPR = TP / RN trong đó RP = TP + FN và RN = FN + FP là số lượng tích cực thực và âm tính thực trong tập dữ liệu và ngược lại PP = TP + FP và PN = TN + FN là số lần chúng tôi Dự đoán tích cực hoặc Dự đoán tiêu cực. Lưu ý rằng chúng tôi gọi rp = RP / N và rn = RN / N là tỷ lệ phổ biến của sự tôn trọng tích cực. âm và pp = PP / N và rp = RP / N độ lệch so với dương.

Nếu chúng ta tính tổng hoặc độ nhạy và độ đặc hiệu trung bình hoặc nhìn vào Vùng bên dưới Đường cong trao đổi (tương đương với ROC chỉ đảo ngược trục x), chúng ta sẽ nhận được kết quả tương tự nếu chúng ta trao đổi lớp nào là + ve và + ve. Điều này KHÔNG đúng với Độ chính xác và Thu hồi (như minh họa ở trên với dự đoán bệnh bằng ZeroR). Sự tùy tiện này là một thiếu sót lớn của Chính xác, Nhớ lại và trung bình của chúng (cho dù là đồ thị số học, hình học hoặc hài hòa) và đồ thị.

Các biểu đồ PR, PN, ROC, LIFT và các biểu đồ khác được vẽ khi các tham số của hệ thống được thay đổi. Điểm cốt truyện kinh điển này cho từng hệ thống riêng lẻ được đào tạo, thường có ngưỡng tăng hoặc giảm để thay đổi điểm tại đó một thể hiện được phân loại dương so với âm.

Đôi khi, các điểm được vẽ có thể là trung bình trên (thay đổi tham số / ngưỡng / thuật toán) của các hệ thống được đào tạo theo cùng một cách (nhưng sử dụng các số ngẫu nhiên hoặc lấy mẫu hoặc thứ tự khác nhau). Đây là các cấu trúc lý thuyết cho chúng ta biết về hành vi trung bình của các hệ thống thay vì hiệu suất của chúng đối với một vấn đề cụ thể. Các biểu đồ cân bằng nhằm giúp chúng tôi chọn điểm vận hành chính xác cho một ứng dụng cụ thể (bộ dữ liệu và cách tiếp cận) và đây là nơi ROC lấy tên của nó (Đặc điểm hoạt động của người nhận nhằm mục đích tối đa hóa thông tin nhận được, theo nghĩa thông tin).

Chúng ta hãy xem xét những gì Recall hoặc TPR hoặc TP có thể được âm mưu chống lại.

TP vs FP (PN) - trông giống hệt cốt truyện ROC, chỉ với các số khác nhau

TPR vs FPR (ROC) - TPR so với FPR với AUC không thay đổi nếu +/- bị đảo ngược.

TPR vs TNR (alt ROC) - hình ảnh phản chiếu của ROC là TNR = 1-FPR (TN + FP = RN)

TP vs PP (LIFT) - X incs cho các ví dụ tích cực và tiêu cực (kéo dài phi tuyến)

TPR vs pp (alt LIFT) - trông giống như LIFT, chỉ với các số khác nhau

TP vs 1 / PP - rất giống với LIFT (nhưng đảo ngược với độ căng phi tuyến)

TPR vs 1 / PP - trông giống như TP vs 1 / PP (các số khác nhau trên trục y)

TP vs TP / PP - tương tự nhưng có mở rộng trục x (TP = X -> TP = X * TP)

TPR vs TP / PP - trông giống nhau nhưng với các số khác nhau trên các trục

Cuối cùng là Recall vs Precision!

Lưu ý đối với các biểu đồ này, bất kỳ đường cong nào thống trị các đường cong khác (tốt hơn hoặc ít nhất là cao ở tất cả các điểm) vẫn sẽ chiếm ưu thế sau các biến đổi này. Vì sự thống trị có nghĩa là "ít nhất là cao" tại mọi điểm, đường cong cao hơn cũng có "ít nhất là cao" một Vùng dưới Đường cong (AUC) vì nó cũng bao gồm cả khu vực giữa các đường cong. Điều ngược lại là không đúng: nếu các đường cong giao nhau, trái ngược với sự đụng chạm, không có sự thống trị, nhưng một AUC vẫn có thể lớn hơn các đường cong khác.

Tất cả các phép biến đổi thực hiện là phản ánh và / hoặc phóng to các cách khác nhau (phi tuyến tính) đến một phần cụ thể của biểu đồ ROC hoặc PN. Tuy nhiên, chỉ ROC mới có cách giải thích tốt về Khu vực theo Đường cong (xác suất rằng số dương được xếp hạng cao hơn số âm - thống kê Mann-Whitney U) và Khoảng cách trên Đường cong (xác suất đưa ra quyết định sáng suốt thay vì đoán - Youden J thống kê như hình thức phân đôi của Thông tin).

Nói chung, không cần sử dụng đường cong trao đổi PR và bạn chỉ cần phóng to đường cong ROC nếu cần chi tiết. Đường cong ROC có thuộc tính duy nhất mà đường chéo (TPR = FPR) đại diện cho cơ hội, rằng Khoảng cách trên đường Cơ hội (DAC) thể hiện Thông tin hoặc xác suất của một quyết định có hiểu biết và Khu vực dưới Đường cong (AUC) đại diện cho Xếp hạng hoặc xác suất xếp hạng cặp chính xác. Những kết quả này không đúng với đường cong PR và AUC bị biến dạng cho Recall hoặc TPR cao hơn như đã giải thích ở trên. PR AUC lớn hơn không ngụ ý ROC AUC lớn hơn và do đó không hàm ý Xếp hạng tăng (xác suất các cặp +/- được dự đoán chính xác - viz. tần suất dự đoán + ves trên -ves) và không ngụ ý tăng Thông tin (xác suất dự đoán được thông báo thay vì một dự đoán ngẫu nhiên - viz. tần suất nó biết những gì nó đang làm khi đưa ra dự đoán).

Xin lỗi - không có đồ thị! Nếu bất cứ ai muốn thêm biểu đồ để minh họa các biến đổi ở trên, điều đó sẽ rất tuyệt! Tôi có khá nhiều trong các bài viết của mình về ROC, LIFT, BIRD, Kappa, F-đo, Informedness, v.v. nhưng chúng không được trình bày theo cách này mặc dù có những minh họa về ROC vs LIFT vs BIRD vs RP trong https : //arxiv.org/pdf/1505.00401.pdf

CẬP NHẬT: Để tránh cố gắng đưa ra lời giải thích đầy đủ trong các câu trả lời hoặc nhận xét quá dài, đây là một số bài viết của tôi "khám phá" vấn đề với Precision vs Recall trao đổi inc. F1, nhận được Thông tin và sau đó "khám phá" các mối quan hệ với ROC, Kappa, Ý nghĩa, DeltaP, AUC, v.v ... Đây là một vấn đề mà một trong những học sinh của tôi đã gặp phải trong 20 năm trước (Entwisle) và nhiều người khác đã tìm thấy ví dụ về thế giới thực của của chính họ khi có bằng chứng thực nghiệm rằng phương pháp R / P / F / A đã gửi cho người học theo cách SAU, trong khi Thông tin (hoặc Kappa hoặc Tương quan trong các trường hợp thích hợp) đã gửi cho họ cách ĐÚNG - hiện tại trên hàng chục lĩnh vực. Ngoài ra còn có nhiều bài viết hay và có liên quan của các tác giả khác trên Kappa và ROC, nhưng khi bạn sử dụng Kappas so với ROC AUC so với ROC Chiều cao (Hiểu biết hoặc Youden ' s J) được làm rõ trong các bài báo năm 2012 tôi liệt kê (nhiều bài báo quan trọng của người khác được trích dẫn trong đó). Cuốn sách Bookmaker 2003 xuất hiện lần đầu tiên một công thức về Thông tin cho trường hợp đa giác. Bài viết năm 2013 lấy ra một phiên bản đa kính của Adaboost được điều chỉnh để tối ưu hóa Thông tin (với các liên kết đến Weka đã sửa đổi lưu trữ và chạy nó).

Người giới thiệu

1998 Việc sử dụng số liệu thống kê hiện nay trong việc đánh giá các trình phân tích cú pháp NLP. J Entwisle, DMW Powers - Kỷ yếu của các hội nghị chung về phương pháp mới trong xử lý ngôn ngữ: 215-224 https://dl.acm.org/citation.cfm?id=1603935 được trích dẫn bởi 15

2003 Recall & Precision so với The Bookmaker. DMW Powers - Hội nghị quốc tế về khoa học nhận thức: 529-534 http://dspace2.flinder.edu.au/xmlui/handle/2328/27159 Trích dẫn bởi 46

Đánh giá năm 2011: từ độ chính xác, thu hồi và đo F đến ROC, thông tin, đánh dấu và tương quan. DMW Powers - Tạp chí Công nghệ Máy học 2 (1): 37-63. http://dspace2.flinder.edu.au/xmlui/handle/2328/27165 Trích dẫn bởi 1749

2012 Vấn đề với kappa. DMW Powers - Thủ tục tố tụng của Hội nghị ACL châu Âu lần thứ 13: 345-355 https://dl.acm.org/citation.cfm?id=2380859 Trích dẫn bởi 63

2012 ROC-ConCert: Đo lường tính nhất quán và chắc chắn của ROC. DMW Powers - Hội nghị mùa xuân về Kỹ thuật và Công nghệ (S-CET) 2: 238-241 http://www.academia.edu/doad/31939951/201203-SCET30795-ROC-ConCert-PID1124774.pdf Trích dẫn bởi 5

ADABOOK & MULTIBOOK 2013 :: Tăng cường thích ứng với cơ hội sửa chữa. DMW Powers- Hội nghị quốc tế về tin học trong điều khiển, tự động hóa và robot của ICINCO http://www.academia.edu/doad/31947210/201309-AdaBook-ICINCO-SCITE-Harvard-2upcor_poster.pdf

https://www.dropbox.com/s/artzz1l3vozb6c4/weka.jar (goes into Java Class Path)
https://www.dropbox.com/s/dqws9ixew3egraj/wekagui   (GUI start script for Unix)
https://www.dropbox.com/s/4j3fwx997kq2xcq/wekagui.bat  (GUI shortcut on Windows)

Trích dẫn bởi 4


> "khu vực dưới đường cong biểu thị Xếp hạng hoặc xác suất xếp hạng cặp chính xác" Tôi đoán, đó chính xác là nơi chúng tôi không đồng ý - ROC chỉ thể hiện chất lượng xếp hạng trong cốt truyện . Tuy nhiên, với AUC PR là một con số duy nhất cho tôi biết ngay nếu xếp hạng nào là thích hợp hơn (nghĩa là kết quả đó tôi thích hơn kết quả II). AUC ROC không có tài sản này.
fnl

Kết quả thống trị mà fnl trích dẫn có nghĩa là KHI XÁC ĐỊNH, Nếu một đường cong chiếm ưu thế trong ROC thì nó làm trong PR và ngược lại, và điều này có nghĩa là nó cũng có diện tích cao hơn trong cả hai, và do đó không có sự khác biệt về chất giữa ROC và PR AUC. Trích dẫn về Xếp hạng (Mann-Whitney U) là xác suất tái kết quả định lượng được thiết lập tốt (một phần của bài kiểm tra quan trọng) được đề xuất khá độc lập với ROC, nhưng sau đó được phát hiện là ROC AUC. Tương tự Thông tin ban đầu được xác định độc lập và sau đó được chứng minh là tương ứng với chiều cao của điểm hoạt động của ROC. PR không có kết quả như vậy.
David MW Powers

1
Như tôi đã nói trước đây, đây chỉ là vấn đề mở rộng trong điều kiện thống trị ("lớn hơn nhiều" vì nhân với một số lượng lớn như tôi giải thích chi tiết), nhưng trong điều kiện không thống trị, AUC PR là sai lệch và AUC ROC là một có cách giải thích xác suất phù hợp (Mann-Whitney U hoặc Xếp hạng), với trường hợp điểm hoạt động duy nhất tương ứng với Gini (hoặc tương đương với J hoặc Thông tin của Youden, sau khi mở rộng).
David MW Powers

1
Nếu chúng tôi xem xét AUC điểm hoạt động đơn (SOC) đơn giản, thì Hệ số Gini = AUC = (TP / RP + TN / RN) / 2 và Thông tin = Youden J = TP / RP + TN / RN - 1 = Độ nhạy + Độ đặc hiệu -1 = TPR + TNF -1 = Recall + Nghịch đảo ngược - 1, v.v. Tối đa hóa một trong hai là tương đương, nhưng cái sau là xác suất của một quyết định có hiểu biết (cố tình sai nếu -ve). Nếu cả RN và TN đều đi đến vô cùng với TN >> FP thì TN / RN -> 1 và hủy vì vậy Thông tin = Nhớ lại trong các trường hợp bạn trích dẫn. Nếu thay vào đó, lớp lớn là RP và TP >> FN thì TP / RP -> 1 và Informedness = Nhớ lại nghịch đảo. Xem tài liệu tham khảo.
David MW Powers

1
Đây là một câu trả lời rất hữu ích David Powers. Nhưng hãy tha thứ cho sự thiếu hiểu biết của tôi, khi bạn nói, 'Nói chung, không cần sử dụng đường cong trao đổi PR và bạn chỉ có thể phóng to đường cong ROC nếu cần chi tiết.', Chính xác thì tôi sẽ làm như thế nào và bạn có thể cung cấp thêm không chi tiết về những gì bạn có ý nghĩa? Điều này có nghĩa là tôi có thể sử dụng đường cong ROC trong trường hợp mất cân bằng nghiêm trọng bằng cách nào đó? 'Tạo cho FPR hoặc TPR một trọng số cao hơn sẽ tạo ra điểm AUC ROC với kết quả chênh lệch lớn hơn, điểm tuyệt vời!' Làm thế nào để tôi làm điều này sau đó với ROC của tôi?
Christopher John
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.