FPR (tỷ lệ dương tính giả) so với FDR (tỷ lệ phát hiện sai)


20

Trích dẫn sau đây xuất phát từ tài liệu nghiên cứu nổi tiếng Ý nghĩa thống kê đối với các nghiên cứu về bộ gen của Storey & Tibshirani (2003):

Ví dụ, tỷ lệ dương tính giả là 5% có nghĩa là trung bình 5% các tính năng thực sự không có trong nghiên cứu sẽ được gọi là đáng kể. FDR (Tỷ lệ phát hiện sai) là 5% có nghĩa là trong số tất cả các tính năng được gọi là đáng kể, trung bình 5% trong số này là không có giá trị trung bình.

Ai đó có thể giải thích điều đó có nghĩa là gì bằng cách sử dụng một ví dụ số hoặc hình ảnh đơn giản? Tôi đang gặp khó khăn để hiểu ý nghĩa của nó. Tôi đã tìm thấy nhiều bài đăng khác nhau trên FDR hoặc FPR, nhưng không tìm thấy bất kỳ nơi nào so sánh cụ thể được thực hiện.

Sẽ đặc biệt tốt nếu ai đó chuyên gia trong lĩnh vực này có thể minh họa các tình huống trong đó cái này tốt hơn cái kia, hoặc cả hai đều tốt hoặc xấu.


3
Tôi nhận thấy bạn đã trao phần thưởng cho câu trả lời của @ mkt, Naseer. Nếu câu trả lời đó giải quyết câu hỏi của bạn cho bạn, bạn cũng có thể chấp nhận nó bằng cách nhấp vào dấu kiểm bên trái bên dưới chỉ báo tiền thưởng.
gung - Phục hồi Monica

Câu trả lời:


29

Tôi sẽ giải thích những điều này theo một số cách khác nhau vì nó giúp tôi hiểu nó.

Hãy lấy một ví dụ cụ thể. Bạn đang làm một xét nghiệm cho một bệnh trên một nhóm người. Bây giờ hãy xác định một số thuật ngữ. Đối với mỗi điều sau đây, tôi đề cập đến một cá nhân đã được thử nghiệm:

Đúng dương tính (TP) : Có bệnh, được xác định là có bệnh

Dương tính giả (FP) : Không có bệnh, được xác định là có bệnh

Âm tính thật (TN) : Không có bệnh, được xác định là không mắc bệnh

Âm tính giả (FN) : Có bệnh, được xác định là không mắc bệnh

Trực quan, điều này thường được hiển thị bằng cách sử dụng ma trận nhầm lẫn :

nhập mô tả hình ảnh ở đây

Các tỷ lệ dương tính giả (FPR) là số lượng người đã không có bệnh nhưng được xác định là có bệnh (tất cả fps), chia cho tổng số người không có bệnh (bao gồm tất cả FPS và TNS) .

FPR= =FPFP+TN

Các tỷ lệ phát hiện sai (FDR) là số lượng người đã không có bệnh nhưng được xác định là có bệnh (tất cả fps), chia cho tổng số lượng người đã được xác định là mắc bệnh lao phổi (bao gồm tất cả FPS và TPS ).

FDR= =FPFP+TP


Vì vậy, sự khác biệt là ở mẫu số tức là bạn đang so sánh số lượng dương tính giả với cái gì?

Các FPR là nói cho bạn tỷ lệ tất cả những người không có bệnh người sẽ được xác định là mắc bệnh lao phổi.

Các FDR là nói cho bạn tỷ lệ tất cả những người được xác định là có bệnh người không có bệnh.

Cả hai đều hữu ích, các biện pháp khác nhau của sự thất bại. Tùy thuộc vào tình hình và tỷ lệ của TP, FP, TN và FN, bạn có thể quan tâm nhiều hơn về cái kia.


Bây giờ chúng ta hãy đặt một số con số này. Bạn đã đo được 100 người cho căn bệnh này và bạn nhận được những điều sau đây:

Tích cực thực sự (TPs) : 12

Dương tính giả (FP) : 4

Tiêu cực thực sự (TNs) : 76

Âm tính giả (FN) : 8

Để hiển thị điều này bằng cách sử dụng ma trận nhầm lẫn:

nhập mô tả hình ảnh ở đây

Sau đó,

FPR= =FPFP+TN= =44+76= =480= =0,05= =5%

FDR= =FPFP+TP= =44+12= =416= =0,25= =25%

Nói cách khác,

FPR cho bạn biết rằng 5% số người không mắc bệnh được xác định mắc bệnh. FDR cho bạn biết rằng 25% những người được xác định mắc bệnh thực sự không mắc bệnh.


EDIT dựa trên nhận xét của @ amoeba (cũng là các số trong ví dụ trên):

n

[Lưu ý bên lề: Wikipedia chỉ ra rằng mặc dù FPR tương đương về mặt toán học với tỷ lệ lỗi loại I, nó được coi là khác biệt về mặt khái niệm bởi vì người ta thường đặt một ưu tiên trong khi cái kia thường được sử dụng để đo hiệu suất của một bài kiểm tra sau đó. Điều này rất quan trọng nhưng tôi sẽ không thảo luận về vấn đề này ở đây].


Và để hoàn thiện hơn một chút:

Rõ ràng, FPR và FDR không phải là số liệu liên quan duy nhất bạn có thể tính toán với bốn đại lượng trong ma trận nhầm lẫn. Trong số nhiều số liệu có thể hữu ích trong các bối cảnh khác nhau , hai số liệu tương đối phổ biến mà bạn có thể gặp phải là:

Tỷ lệ dương tính thật (TPR) , còn được gọi là độ nhạy , là tỷ lệ của những người mắc bệnh được xác định mắc bệnh.

TPR= =TPTP+FN

Tỷ lệ âm tính thật (TNR) , còn được gọi là độ đặc hiệu , là tỷ lệ của những người không mắc bệnh được xác định là không mắc bệnh.

TNR= =TNTN+FP


3
+1. Có thể có ý nghĩa khi điều chỉnh ví dụ bằng số sao cho FPR = 5% vì đó là những gì bạn sẽ có nếu bạn sử dụng p <0,05 làm tiêu chí (giả sử thử nghiệm có kích thước chính xác). Hoặc 1% nếu p <0,01, sao cũng được. Chỉ ra kết nối này có thể hữu ích cho một số độc giả.
amip nói rằng Phục hồi lại

1
@amoeba Cảm ơn bạn, đây là một ý tưởng tốt. Tôi sẽ cố gắng làm điều đó sau.
mkt - Tái lập Monica

2

Bạn nên kiểm tra bảng trong https://en.wikipedia.org/wiki/Confusion_matrix . Xin lưu ý FPR được đặt theo chiều dọc trong khi FDR nằm ngang.

  • FP xảy ra nếu giả thuyết null của bạn là đúng nhưng bạn từ chối nó
  • FD xảy ra nếu bạn dự đoán điều gì đó quan trọng nhưng bạn không nên

Tôi biết điều đó nhưng tôi đặc biệt quan tâm đến việc so sánh như nếu bạn có thể giúp giải thích khái niệm đó với một số con số và trực quan hóa để hỗ trợ các con số của bạn sẽ rất thú vị.
李 慕
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.