Có phải tôi vừa phát minh ra một phương pháp Bayes để phân tích các đường cong ROC?


21

Lời nói đầu

Đây là một bài dài. Nếu bạn đang đọc lại phần này, xin lưu ý rằng tôi đã sửa đổi phần câu hỏi, mặc dù tài liệu nền vẫn giữ nguyên. Ngoài ra, tôi tin rằng tôi đã nghĩ ra một giải pháp cho vấn đề này. Giải pháp đó xuất hiện ở dưới cùng của bài viết. Cảm ơn CliffAB đã chỉ ra rằng giải pháp ban đầu của tôi (được chỉnh sửa từ bài đăng này; xem lịch sử chỉnh sửa cho giải pháp đó) nhất thiết phải tạo ra các ước tính sai lệch.

Vấn đề

Trong các vấn đề phân loại học máy, một cách để đánh giá hiệu suất mô hình là bằng cách so sánh các đường cong ROC hoặc khu vực dưới đường cong ROC (AUC). Tuy nhiên, theo quan sát của tôi, có rất ít thảo luận về sự biến thiên của các đường cong ROC hoặc ước tính của AUC; nghĩa là, số liệu thống kê của họ được ước tính từ dữ liệu và do đó có một số lỗi liên quan đến chúng. Việc mô tả lỗi trong các ước tính này sẽ giúp đặc tính hóa, ví dụ, liệu một phân loại có thực sự vượt trội so với các phân loại khác hay không.

Tôi đã phát triển cách tiếp cận sau đây, mà tôi gọi là phân tích Bayes về các đường cong ROC, để giải quyết vấn đề này. Có hai quan sát chính trong suy nghĩ của tôi về vấn đề:

  1. Các đường cong ROC bao gồm các đại lượng ước tính từ dữ liệu và có thể tuân theo phân tích Bayes.

    Đường cong ROC được sáng tác bởi âm mưu tỷ lệ dương tính thật so với tỷ lệ dương tính giả F P R ( θ ) , mỗi trong số đó là, bản thân, ước tính từ dữ liệu. Tôi coi T P RF P R chức năng của θ , ngưỡng quyết định sử dụng để lớp loại A từ B (votes cây trong một khu rừng ngẫu nhiên, khoảng cách từ một siêu phẳng trong SVM, dự đoán xác suất trong một hồi quy logistic, vv). Cách thay đổi giá trị của ngưỡng quyết định θ sẽ trở lại ước tính khác nhau của T P RTPR(θ)FPR(θ)TPRFPRθθTPR . Hơn nữa, chúng ta có thể xem xét T P R ( θ ) là một ước lượng xác suất thành công trong một chuỗi các cuộc thử nghiệm Bernoulli. Trên thực tế, TPR được định nghĩa là T PFPRTPR(θ)cũng là MLE của xác suất thành công nhị thức trong một thử nghiệm vớiTPthành công vàTP+FN>0tổng số thử nghiệm.TPTP+FN,TPTP+FN>0

    Vì vậy, bằng cách xem xét đầu ra của F PTPR(θ) là biến ngẫu nhiên, chúng tôi đang phải đối mặt với một vấn đề về ước lượng xác suất thành công của một thí nghiệm nhị thức trong đó số lượng những thành công và thất bại được biết chính xác (được đưa ra bởi T P , F P , F N T N , mà tôi giả sử là tất cả cố định). Thông thường, người ta chỉ đơn giản là sử dụng MLE, và giả định rằng TPR và FPR được cố định cho các giá trị cụ thể của θFPR(θ)TPFPFNTNθ. Nhưng trong phân tích Bayes của tôi về các đường cong ROC, tôi vẽ các mô phỏng sau của các đường cong ROC, thu được bằng cách vẽ các mẫu từ phân bố sau trên các đường cong ROC. Một mô hình Bayesan tiêu chuẩn cho vấn đề này là khả năng nhị thức với beta trước xác suất thành công; phân bố sau về xác suất thành công cũng là phiên bản beta, vì vậy cho mỗi , chúng ta có một phân bố sau của TPR và FPR giá trị. Điều này đưa chúng ta đến sự quan sát thứ hai của tôi.θ

  2. Đường cong ROC không giảm. Vì vậy, một khi ai đã lấy mẫu một số giá trị của F P R ( θ ) , có zero xác suất lấy mẫu một điểm trong không gian Trung Hoa Dân Quốc "phía đông nam" của các điểm lấy mẫu. Nhưng lấy mẫu hạn chế hình dạng là một vấn đề khó khăn.TPR(θ)FPR(θ)

Cách tiếp cận Bayes có thể được sử dụng để mô phỏng số lượng lớn AUC từ một bộ ước tính duy nhất. Ví dụ, 20 mô phỏng trông như thế này so với dữ liệu gốc. Đường cong ROC mô phỏng

Phương pháp này có một số lợi thế. Ví dụ, xác suất AUC của một mô hình lớn hơn mô hình khác có thể được ước tính trực tiếp bằng cách so sánh AUC của các mô phỏng sau của chúng. Ước tính phương sai có thể thu được thông qua mô phỏng, rẻ hơn so với phương pháp lấy mẫu lại và các ước tính này không phát sinh vấn đề về các mẫu tương quan phát sinh từ phương pháp lấy mẫu lại.

Dung dịch

Tôi đã phát triển một giải pháp cho vấn đề này bằng cách thực hiện quan sát thứ ba và thứ tư về bản chất của vấn đề, ngoài hai vấn đề trên.

  1. F P R ( θ ) có mật độ biên mà đều tuân theo mô phỏng.TPR(θ)FPR(θ)

    Nếu (phó F P R ( θ ) ) là một biến ngẫu nhiên beta-phân phối với các thông số T PF N (phó F PT N ), chúng tôi cũng có thể xem xét những gì mật độ TPR là trung bình so với giá trị khác nhau θ mà tương ứng với phân tích của chúng tôi. Nghĩa là, chúng ta có thể xem xét một quá trình theo cấp bậc mà một mẫu một giá trị ~ θ từ bộ sưu tập của θTPR(θ)FPR(θ)TPFNFPTNθθ~θ giá trị thu được bằng cách out-of-mẫu mô hình dự báo của chúng tôi, và sau đó mẫu một giá trị của . một phân tán trên các mẫu kết quả của T P R ( ~ θ ) giá trị là mật độ tỷ lệ dương tính thật đó là trên vô điều kiệnTPR(θ~)TPR(θ~)θ riêng của mình. Bởi vì chúng ta đang giả định một mô hình phiên bản beta cho , phân phối kết quả là một hỗn hợp của các bản phân phối phiên bản beta, với một số thành phần c tương đương với kích thước của bộ sưu tập của chúng ta về θ , và hệ số hỗn hợp 1 /TPR(θ)cθ .1/c

    Trong ví dụ này, tôi đã thu được CDF sau trên TPR. Đáng chú ý, do sự suy biến của các bản phân phối beta trong đó một trong các tham số bằng 0, một số thành phần hỗn hợp là hàm delta Dirac ở 0 hoặc 1. Đây là nguyên nhân gây ra các đột biến ở 0 và 1. Các "gai" này ngụ ý rằng các mật độ này không liên tục cũng không rời rạc. Một lựa chọn ưu tiên dương trong cả hai tham số sẽ có tác dụng "làm mịn" các gai đột ngột này (không hiển thị), nhưng các đường cong ROC kết quả sẽ được kéo về phía trước. Điều tương tự có thể được thực hiện cho FPR (không hiển thị). Vẽ các mẫu từ mật độ biên là một ứng dụng đơn giản của lấy mẫu biến đổi nghịch đảo.

CDF của TPR

  1. Để giải quyết yêu cầu ràng buộc hình dạng, chúng ta chỉ cần sắp xếp TPR và FPR một cách độc lập.

    Beta(0,0)

nhập mô tả hình ảnh ở đây

So sánh với Bootstrap

n=20

nhập mô tả hình ảnh ở đây

Trình diễn này cho thấy giá trị trung bình của bootstrap bị sai lệch dưới giá trị trung bình của mẫu ban đầu và KDE của bootstrap mang lại "bướu" được xác định rõ. Nguồn gốc của các bướu này hầu như không bí ẩn - đường cong ROC sẽ nhạy cảm với sự bao gồm của từng điểm và ảnh hưởng của một mẫu nhỏ (ở đây, n = 20) là thống kê cơ bản nhạy hơn với sự bao gồm của từng điểm điểm. (Nhấn mạnh, việc tạo khuôn này không phải là một yếu tố của băng thông kernel - lưu ý biểu đồ tấm thảm. Mỗi sọc là một số bản sao bootstrap có cùng giá trị. Bootstrap có 2000 lần lặp, nhưng số lượng giá trị riêng biệt rõ ràng nhỏ hơn nhiều. có thể kết luận rằng các bướu là một tính năng nội tại của thủ tục bootstrap.) Ngược lại, ước tính AUC của Bayes có xu hướng rất gần với ước tính ban đầu,

Câu hỏi

Câu hỏi sửa đổi của tôi là liệu giải pháp sửa đổi của tôi là không chính xác. Một câu trả lời tốt sẽ chứng minh (hoặc không chứng minh) rằng các mẫu kết quả của các đường cong ROC bị sai lệch, hoặc tương tự chứng minh hoặc bác bỏ các phẩm chất khác của phương pháp này.


1
Tôi nghĩ rằng bạn đang đặt quá nhiều niềm tin vào các đường cong ROC. Tôi đã không thấy một trường hợp duy nhất mà họ dẫn đến hiểu biết. Tôi đã thấy nhiều trường hợp chúng dẫn đến ngưỡng, đó thực sự là một ý tưởng tồi.
Frank Harrell

1
@FrankHarrell Cảm ơn bạn đã lưu ý, Tiến sĩ Mitchell. Nhưng đối với khách hàng của tôi, tôi được giao nhiệm vụ phát triển các trình phân loại sẽ đưa ra quyết định một cách tự động trong các tập dữ liệu rất lớn. Tôi đánh giá cao rằng trong bối cảnh y tế, điều này rất không hiệu quả, nhưng phân tích tiện ích / chi phí của các chuyên gia cho mỗi quan sát chỉ đơn giản là không thực tế khi chúng ta cần đưa ra quyết định về hàng ngàn điểm dữ liệu. Chúng ta cần đưa ra lựa chọn về việc thực hiện mô hình nào để hoàn thành nhiệm vụ này và ROC / AUC giúp với quyết định đó.
Sycorax nói Phục hồi lại

2
Vì bạn đã dự đoán xác suất nên dù sao bạn cũng không sử dụng trình phân loại, ít nhất là khi bắt đầu quá trình. Các tiện ích sẽ đưa ra quyết định tốt hơn nhưng nếu bạn không thể có được các tiện ích, bạn vẫn có thể nghĩ về điều này khác với các đường cong ROC sử dụng các đường cong nâng và ngưỡng rủi ro quyết định. Đây không thực sự là một vấn đề y tế.
Frank Harrell

3
X1+X2<1X1,X2X1X2 (tức là bất cứ thứ gì chúng ta bắt đầu với, trung bình, sẽ lớn hơn so với phân phối khác).
Vách đá AB

3
Bắt đầu với ghi chú khóa học của tôi - xem biostat.mc.vanderbilt.edu/C thuyếtBios330 . Ngoài ra, hãy xem Nghiên cứu sinh học cho nghiên cứu y sinh có sẵn từ biostat.mc.vanderbilt.edu/ClinStat , đặc biệt là chương Mất thông tin và bắt đầu Chương 10.
Frank Harrell

Câu trả lời:


7

Trước hết, không có cách nào được chấp nhận để "phân tích" đường cong ROC: nó chỉ là một hình ảnh mô tả khả năng dự đoán của mô hình phân loại. Bạn chắc chắn có thể tóm tắt một đường cong ROC bằng cách sử dụng thống kê c hoặc AUC, nhưng tính toán khoảng tin cậy và thực hiện suy luận bằng cách sử dụngc

Nhìn chung, chúng tôi chấp nhận khá tốt rằng bạn có thể ước tính độ biến thiên của các đường cong ROC bằng cách sử dụng bootstrap cf Pepe Etzione Feng . Đây là một cách tiếp cận tốt vì đường cong ROC là ước tính theo kinh nghiệm và bootstrap là không tham số. Tham số hóa bất cứ điều gì trong một thời trang như vậy giới thiệu các giả định và biến chứng, chẳng hạn như "là một căn hộ trước thực sự không phù hợp?" Tôi không tin đây là trường hợp ở đây.

θθđộc lập . Họ không phải. Trong thực tế, họ hoàn toàn phụ thuộc. Bạn đang tính toán một hậu thế Bayes cho trọng lượng của riêng bạn tính bằng kilogam và pound và nói rằng họ không phụ thuộc vào nhau.

Lấy một ví dụ, một mô hình với sự phân biệt hoàn hảo . Sử dụng phương pháp của bạn, bạn sẽ thấy rằng các dải tin cậy là hình vuông đơn vị. Họ không phải! Không có sự thay đổi trong một mô hình với sự phân biệt hoàn hảo. Một bootstrap sẽ cho bạn thấy điều đó.

Nếu một người tiếp cận vấn đề "phân tích" ROC từ góc độ Bayes, có lẽ sẽ hữu ích nhất để giải quyết vấn đề lựa chọn mô hình bằng cách đặt trước không gian của các mô hình được sử dụng để phân tích. Đó sẽ là một vấn đề rất thú vị.


Tôi không chắc chắn rằng câu trả lời này trả lời cho nội dung bài viết. Ví dụ, tôi chỉ mô phỏng các đường cong ROC cho một mô hình với sự phân biệt hoàn hảo. Các đường cong này đều tập trung ở góc phía tây bắc của không gian ROC và một khoảng trung tâm xung quanh các mô phỏng AUC là một số rất gần với 1. Điều này mâu thuẫn trực tiếp với khẳng định trong câu trả lời, cho rằng các mô phỏng phải nói dối Tất cả trên toàn bộ đơn vị vuông.
Sycorax nói Phục hồi lại

1
θθTPR(θ)FPR(θ)

θ

θθ

@ user777 chính xác những gì có trước?
AdamO
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.