Wojtek J. Krzanowski và David J. Hand ROC Curves for Contin Data (2009) là một tài liệu tham khảo tuyệt vời cho tất cả những thứ liên quan đến các đường cong ROC. Nó tập hợp một số kết quả trong một cơ sở văn học rộng rãi bực bội, thường sử dụng các thuật ngữ khác nhau để thảo luận về cùng một chủ đề.
Ngoài ra, cuốn sách này cung cấp bình luận và so sánh các phương pháp thay thế đã được rút ra để ước tính cùng một số lượng, và chỉ ra rằng một số phương pháp đưa ra các giả định có thể không thể đo lường được trong các bối cảnh cụ thể. Đây là một trong những bối cảnh như vậy; các câu trả lời khác báo cáo phương pháp Hanley & McNeil, giả định mô hình nhị phân để phân phối điểm, có thể không phù hợp trong trường hợp phân phối điểm số không (gần) bình thường. Giả định về điểm số phân phối thông thường có vẻ đặc biệt không phù hợp trong bối cảnh học máy hiện đại , các mô hình phổ biến điển hình như xgboost có xu hướng tạo ra điểm số với phân phối "bồn tắm" cho các nhiệm vụ phân loại (nghĩa là phân phối với mật độ cao ở cực trị gần 0 và 1 ).
Câu 1 - AUC
Phần 6.3 thảo luận về so sánh của ROC AUC cho hai đường cong ROC (trang 113-114). Cụ thể, sự hiểu biết của tôi là hai mô hình này có mối tương quan với nhau, vì vậy thông tin về cách tính rất quan trọng ở đây; mặt khác, thống kê kiểm tra của bạn sẽ bị sai lệch bởi vì nó không tính đến sự đóng góp của mối tương quan.r
Đối với trường hợp đường cong ROC không tương thích không dựa trên bất kỳ giả định phân phối tham số nào, số liệu thống kê cho các khoảng thời gian và độ tin cậy so sánh AUC có thể được dựa trên các ước tính và ^ AUC 2 của các giá trị AUC và ước tính độ lệch chuẩn S 1 và S 2 , như được đưa ra trong phần 3.5.1:AUCˆ1AUCˆ2S1S2
Z=AUCˆ1−AUCˆ2S21+S22−−−−−−−√
Để mở rộng các thử nghiệm như vậy cho trường hợp sử dụng cùng một dữ liệu cho cả hai phân loại, chúng ta cần tính đến mối tương quan giữa các ước tính AUC:
z=AUCˆ1−AUCˆ2S21+S22−rS1S2−−−−−−−−−−−−−√
Trong đó là ước tính của mối tương quan này. Hanley và McNeil (1983) đã thực hiện một phần mở rộng như vậy, dựa trên phân tích của họ về trường hợp bất thường, nhưng chỉ đưa ra một bảng chỉ ra cách tính hệ số tương quan ước tính r từ tương quan r P của hai phân loại trong lớp P và tương quan của r n của hai phân loại trong lớp N, nói rằng đạo hàm toán học có sẵn theo yêu cầu. Nhiều tác giả khác (ví dụ Zou, 2001) đã phát triển các thử nghiệm dựa trên mô hình nhị phân, giả sử rằng có thể tìm thấy một phép biến đổi phù hợp sẽ biến đổi đồng thời phân phối điểm của các lớp P và N thành bình thường.rrrPrn
DeLong et al (1988) đã tận dụng sự đồng nhất giữa AUC và thống kê kiểm tra Mann-Whitney, cùng với kết quả từ lý thuyết về -statistic tổng quát do Sen (1960), để rút ra một estiamte về mối tương quan giữa AUC không dựa vào giả định bất thường. Trên thực tế, DeLong et al (1988) đã trình bày các kết quả sau đây để so sánh giữa các phân loại k ≥ 2 .Uk≥2
Trong Phần 3.5.1, chúng tôi đã chỉ ra rằng khu vực dưới đường cong ROC theo kinh nghiệm bằng với -statistic Mann-Whitney , và được đưa ra bởiU
trong đósPi,i=1,Mạnh,nPlà điểm số của cácđối tượnglớpPvàsNj,j=1,Lỗi,nNlà điểm số cho cácđối tượnglớpNtrong mẫu. Giả sử rằng chúng ta cókphân loại, đạt điểm sốs r N j ,
AUCˆ=1nNnP∑i=1nN∑j=1nP[I(sPj>sNi)+12I(sPj=sNi)]
sPi,i=1,…,nPPsNj,j=1,…,nNNk và s r P i , j = 1 , ... , n P [Tôi sửa chữa một lỗi lập chỉ mục trong phần này - Mặt trăng Sycorax], và ^ Một U C r , r = 1 , ... , k . Định nghĩasrNj,j=1…nNsrPi,j=1,…,nPAUCˆr,r=1,…,k
và
V r 01 = 1
Vr10=1nN∑j=1nN[I(srPi>srNj)+12I(srPi=srNj)],i=1,…,nP
Vr01=1nP∑i=1nP[I(srPi>srNj)+12I(srPi=srNj)],j=1,…,nN
tiếp theo, xác định ma trận W 10k×kW10 với thứ nguyên tố
w r , s 10 = 1(r,s)
vàk×kma trậnW01vớiphần tử thứ
(r,s)w r
wr,s10=1nP−1∑i=1nP[Vr10(sPi)−AUCˆr][Vs10(sPi)−AUCˆs]
k×kW01(r,s)
Sau đó, ma trận hiệp phương sai estiamted cho vectơ( ^ A U C 1,Hoài, ^ A U C kwr,s01=1nN−1∑i=1nN[Vr01(sNi)−AUCˆr][Vs01(sNi)−AUCˆs]
của các khu vực ước tính dưới các đường cong là
W = 1(AUCˆ1,…,AUCˆk)với các phần tửwr,s. Đây là một khái quát về kết quả cho phương sai ước tính của AUC estiamted đơn, cũng được đưa ra trong phần 3.5.1. Trong trường hợp có hai phân loại, mối tương quan estiamtedrgiữa các AUC ước tính được đưa ra bởiw1,2W=1nPW10+1nNW01
wr,sr có thể được sử dụng trongzở trên.w1,2w1,1w2,2√z
Do các câu trả lời khác đưa ra các biểu thức Hanley và McNeil cho các công cụ ước tính của phương sai AUC, nên ở đây tôi sẽ sao chép công cụ ước tính DeLong từ p. 68:
Cách tiếp cận thay thế do DeLong et al (1988) và được minh họa bởi Pepe (2003) có thể đưa ra một ước tính đơn giản hơn và một trong đó đưa ra khái niệm hữu ích thêm về giá trị vị trí. Giá trị vị trí của điểm có tham chiếu đến một dân số được chỉ định là chức năng sống sót của dân số đó tại s . Giá trị vị trí này cho s trong dân số N là 1 - F ( s ) và đối với s trong dân số P là 1 - G ( s ) . Ước tính thực nghiệm của các giá trị vị trí được đưa ra bởi tỷ lệ rõ ràng. Do đó, giá trị vị trí của quan sát s Nsss1−F(s)s1−G(s) trong quần thể P ký hiệulà P N i , là tỷ lệ của các giá trị mẫu từ P vượt quás N i vàvar(s N P i )là phương sai của các giá trị vị trí của mỗi quan sát từ N so với dân số P. ..sNisPNisNivar(sNPi)
Ước tính phương sai của DeLong et al (1988) của được đưa ra theo các phương sai này:
s 2 ( ^ A U C ) = 1AUCˆ
s2(AUCˆ)=1nPvar(sNPi)+1nNvar(sPNi)
Lưu ý rằng là hàm phân phối tích lũy của điểm số trong dân số N và G là hàm phân phối tích lũy của điểm số trong dân số P. Một cách tiêu chuẩn để ước tính F và G là sử dụng ecdf . Cuốn sách cũng cung cấp một số phương pháp thay thế cho các ước tính ecdf, chẳng hạn như ước tính mật độ hạt nhân, nhưng điều đó nằm ngoài phạm vi của câu trả lời này.FGFG
Các thống kê và z có thể được coi là độ lệch chuẩn thông thường và các kiểm tra thống kê về giả thuyết null tiến hành theo cách thông thường. (Xem thêm: kiểm tra giả thuyết )Zz
Đây là một phác thảo cấp cao, đơn giản về cách kiểm tra giả thuyết hoạt động:
Kiểm tra, theo cách nói của bạn, "liệu một phân loại tốt hơn đáng kể so với các phân loại khác" có thể được đánh giá lại khi kiểm tra giả thuyết khống rằng hai mô hình có AUC bằng nhau về mặt thống kê so với giả thuyết thay thế rằng các số liệu thống kê là không bằng nhau.
Đây là một thử nghiệm hai đuôi.
Chúng tôi bác bỏ giả thuyết khống nếu thống kê kiểm tra nằm trong khu vực quan trọng của phân phối tham chiếu, đây là phân phối chuẩn thông thường trong trường hợp này.
Kích thước của khu vực quan trọng phụ thuộc vào mức độ của thử nghiệm. Đối với mức ý nghĩa 95%, thống kê kiểm tra rơi vào khu vực quan trọng nếu z > 1,96 hoặc z < - 1,96 . (Đây là các lượng tử α / 2 và 1 - α / 2 của phân phối chuẩn thông thường.) Nếu không, bạn không từ chối giả thuyết null và hai mô hình được liên kết thống kê.αz>1.96z<−1.96α/21−α/2
Câu 1 - Độ nhạy và độ đặc hiệu
t
sensitivity=tp1−specificity=fp=P(sP>t)=P(sN>t)
The main sticking point is developing the appropriate test given that the two sample proportions will be correlated (as you've applied two models to the same test data). This is addressed on p. 111.
Turning to particular tests, several summary statistics reduce to proportions for each curve, so that standard methods for comparing proportions can be used. For example, the value of tp for fixed fp is a proportion, as is the misclassification rate for fixed threshold t. We can thus compare curves, using these measures, by means of standard tests to compare proportions. For example, in the unpaired case, we can use the test statistic (tp1−tp2)/s12, where tpi is the true positive rate for curve i as the point in question, and s212 is the sum of the variances of tp1 and tp2...
For the paired case, however, one can derive an adjustment that allows for the covariance between tp1 and tp2, but an alternative is to use McNemar's test for correlated proportions (Marascuilo and McSweeney, 1977).
The mcnemar-test is appropriate when you have N subjects, and each subject is tested twice, once for each of two dichotomous outcomes. Given the definitions of sensitivity and specificity, it should be obvious that this is exactly the test that we seek, since you've applied two models to the same test data and computed sensitivity and specificity at some threshold.
The McNemar test uses a different statistic, but a similar null and alternative hypothesis. For example, considering sensitivity, the null hypothesis is that the proportion tp1=tp2, and the alternative is tp1≠tp2. Re-arranging the proportions to instead be raw counts, we can write a contingency table
Model 2 Positive at tModel 2 Negative at tModel 1 Positive at tacModel 1 Negative at tbd
where cell
counts are given by counting the true positives and false negatives according to each model
abcd=∑i=1nPI(s1Pi>t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi>t)⋅I(s2Pi≤t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi≤t)
and we have the test statistic
M=(b−c)2b+c
which is distributed as
χ21 a chi-squared distribution with 1 degree of freedom. With a level
α=95%, the null hypothesis is rejected for
M>3.841459.
For the specificity, you can use the same procedure, except that you replace the srPi with the srNj.
Question 2
It seems that it is sufficient to merge the results by averaging the prediction values for each respondent, so that for each model you have 1 vector of 100 averaged predicted values. Then compute the ROC AUC, sensitivty and specificity statistics as usual, as if the original models didn't exist. This reflects a modeling strategy that treats each of the 5 respondents' models as one of a "committee" of models, sort of like an ensemble.