Giá trị chính xác cho độ chính xác và thu hồi trong trường hợp cạnh là gì?


20

Độ chính xác được định nghĩa là:

p = true positives / (true positives + false positives)

Có đúng không, như true positivesfalse positivescách tiếp cận 0, độ chính xác tiếp cận 1?

Câu hỏi tương tự để nhớ lại:

r = true positives / (true positives + false negatives)

Tôi hiện đang thực hiện một thử nghiệm thống kê trong đó tôi cần tính toán các giá trị này và đôi khi điều đó xảy ra là mẫu số là 0 và tôi tự hỏi giá trị nào sẽ trả về cho trường hợp này.

PS: Xin lỗi thẻ không phù hợp, tôi muốn sử dụng recall, precisionlimit, nhưng tôi không thể tạo Tags mới được nêu ra.

precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

Tôi không nghĩ rằng chúng ta cần thẻ giới hạn.

Có lẽ bạn đang cố gắng định lượng hiệu suất của một số quy trình chẩn đoán; Có bất kỳ lý do nào bạn không sử dụng một số liệu lý thuyết phát hiện tín hiệu thích hợp như d ', A' hoặc khu vực dưới đường cong ROC không?
Mike Lawrence

3
@Mike, độ chính xác và thu hồi là các số liệu đánh giá phổ biến trong, ví dụ: truy xuất thông tin trong đó ROC, hoặc cụ thể là khó sử dụng vì bạn đã mong đợi số lượng dương tính giả cao.
dùng979

Câu trả lời:


17

Đưa ra một ma trận nhầm lẫn:

            predicted
            (+)   (-)
            ---------
       (+) | TP | FN |
actual      ---------
       (-) | FP | TN |
            ---------

Chúng ta biết rằng:

Precision = TP / (TP + FP)
Recall = TP / (TP + FN)

Hãy xem xét các trường hợp mẫu số bằng 0:

  • TP + FN = 0: có nghĩa là không có trường hợp tích cực trong dữ liệu đầu vào
  • TP + FP = 0: có nghĩa là tất cả các trường hợp được dự đoán là âm

9
Mở rộng câu trả lời của bạn: Nếu TP = 0 (như trong cả hai trường hợp), gọi lại là 1, vì phương thức đã phát hiện ra tất cả các tích cực thực sự; độ chính xác là 0 nếu có bất kỳ FP và 1 khác.

11

Trả lời là Có. Các trường hợp cạnh không xác định xảy ra khi dương thực sự (TP) bằng 0 vì đây là mẫu số của cả P ​​& R. Trong trường hợp này,

  • Nhớ lại = 1 khi FN = 0, vì 100% TP được phát hiện
  • Độ chính xác = 1 khi FP = 0, vì không có kết quả giả

Đây là một cải cách về nhận xét của @ mbq.


3

Tôi quen thuộc với các thuật ngữ khác nhau. Những gì bạn gọi là chính xác tôi sẽ tích cực dự đoán giá trị (PPV). Và những gì bạn gọi là tôi sẽ gọi độ nhạy (Sens). :

http://en.wikipedia.org/wiki/Receiver_operating_characteristic

Trong trường hợp độ nhạy (nhớ lại), nếu mẫu số bằng 0 (như Amro chỉ ra), thì KHÔNG có trường hợp dương tính, vì vậy việc phân loại là vô nghĩa. (Điều đó không ngăn TP hoặc FN bằng 0, điều này sẽ dẫn đến độ nhạy giới hạn là 1 hoặc 0. Những điểm này tương ứng ở góc trên bên phải và dưới cùng bên trái của đường cong ROC - TPR = 1 và TPR = 0. )

Giới hạn của PPV là có ý nghĩa mặc dù. Có thể cho phép cắt thử nghiệm được đặt ở mức cao (hoặc thấp) để tất cả các trường hợp được dự đoán là âm tính. Đây là nguồn gốc của đường cong ROC. Giá trị giới hạn của PPV ngay trước khi điểm cắt đạt đến điểm gốc có thể được ước tính bằng cách xem xét đoạn cuối của đường cong ROC ngay trước điểm gốc. (Điều này có thể tốt hơn để mô hình hóa vì các đường cong ROC nổi tiếng là ồn ào.)

Ví dụ: nếu có 100 dương thực tế và 100 âm tính thực tế và phân biệt cuối cùng của đường cong ROC từ TPR = 0,08, FPR = 0,02, thì PPV giới hạn sẽ là PPR ~ 0,08 * 100 / (0,08 * 100 + 0,02 * 100 ) = 8/10 = 0,8 tức là xác suất 80% là dương tính thật.

Trong thực tế, mỗi mẫu được đại diện bởi một phân đoạn trên đường cong ROC - ngang cho âm thực và dọc cho dương thực tế. Người ta có thể ước tính PPV giới hạn theo phân đoạn cuối cùng trước gốc, nhưng điều đó sẽ cho PPV giới hạn ước tính là 1, 0 hoặc 0,5, tùy thuộc vào việc mẫu cuối cùng là dương tính thật, dương tính giả (âm tính thực tế) hay được tạo ra của một TP và FP bằng nhau. Một cách tiếp cận mô hình hóa sẽ tốt hơn, có lẽ giả sử dữ liệu là bất thường - một giả định phổ biến, ví dụ: http://mdm.sagepub.com/content/8/3/197.short


1

Điều đó phụ thuộc vào ý của bạn khi "tiếp cận 0". Nếu cả dương tính giả và âm tính giả đều tiến tới 0 với tốc độ nhanh hơn dương tính thật, thì có cho cả hai câu hỏi. Nhưng nếu không, không nhất thiết.


Tôi thực sự không biết tỷ lệ. Thành thật mà nói, tất cả những gì tôi biết là chương trình của tôi bị sập với một phép chia bằng 0 và bằng cách nào đó tôi cần phải xử lý trường hợp đó.
Bjorn Pollex
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.