Lời nói đầu
Đây là một bài dài. Nếu bạn đang đọc lại phần này, xin lưu ý rằng tôi đã sửa đổi phần câu hỏi, mặc dù tài liệu nền vẫn giữ nguyên. Ngoài ra, tôi tin rằng tôi đã nghĩ ra một giải pháp cho vấn đề này. Giải pháp đó xuất hiện ở dưới cùng của bài viết. Cảm ơn CliffAB đã chỉ ra rằng giải pháp ban đầu của tôi (được chỉnh sửa từ bài đăng này; xem lịch sử chỉnh sửa cho giải pháp đó) nhất thiết phải tạo ra các ước tính sai lệch.
Vấn đề
Trong các vấn đề phân loại học máy, một cách để đánh giá hiệu suất mô hình là bằng cách so sánh các đường cong ROC hoặc khu vực dưới đường cong ROC (AUC). Tuy nhiên, theo quan sát của tôi, có rất ít thảo luận về sự biến thiên của các đường cong ROC hoặc ước tính của AUC; nghĩa là, số liệu thống kê của họ được ước tính từ dữ liệu và do đó có một số lỗi liên quan đến chúng. Việc mô tả lỗi trong các ước tính này sẽ giúp đặc tính hóa, ví dụ, liệu một phân loại có thực sự vượt trội so với các phân loại khác hay không.
Tôi đã phát triển cách tiếp cận sau đây, mà tôi gọi là phân tích Bayes về các đường cong ROC, để giải quyết vấn đề này. Có hai quan sát chính trong suy nghĩ của tôi về vấn đề:
Các đường cong ROC bao gồm các đại lượng ước tính từ dữ liệu và có thể tuân theo phân tích Bayes.
Đường cong ROC được sáng tác bởi âm mưu tỷ lệ dương tính thật so với tỷ lệ dương tính giả F P R ( θ ) , mỗi trong số đó là, bản thân, ước tính từ dữ liệu. Tôi coi T P R và F P R chức năng của θ , ngưỡng quyết định sử dụng để lớp loại A từ B (votes cây trong một khu rừng ngẫu nhiên, khoảng cách từ một siêu phẳng trong SVM, dự đoán xác suất trong một hồi quy logistic, vv). Cách thay đổi giá trị của ngưỡng quyết định θ sẽ trở lại ước tính khác nhau của T P Rvà . Hơn nữa, chúng ta có thể xem xét T P R ( θ ) là một ước lượng xác suất thành công trong một chuỗi các cuộc thử nghiệm Bernoulli. Trên thực tế, TPR được định nghĩa là T Pcũng là MLE của xác suất thành công nhị thức trong một thử nghiệm vớiTPthành công vàTP+FN>0tổng số thử nghiệm.
Vì vậy, bằng cách xem xét đầu ra của và F P là biến ngẫu nhiên, chúng tôi đang phải đối mặt với một vấn đề về ước lượng xác suất thành công của một thí nghiệm nhị thức trong đó số lượng những thành công và thất bại được biết chính xác (được đưa ra bởi T P , F P , F N và T N , mà tôi giả sử là tất cả cố định). Thông thường, người ta chỉ đơn giản là sử dụng MLE, và giả định rằng TPR và FPR được cố định cho các giá trị cụ thể của θ. Nhưng trong phân tích Bayes của tôi về các đường cong ROC, tôi vẽ các mô phỏng sau của các đường cong ROC, thu được bằng cách vẽ các mẫu từ phân bố sau trên các đường cong ROC. Một mô hình Bayesan tiêu chuẩn cho vấn đề này là khả năng nhị thức với beta trước xác suất thành công; phân bố sau về xác suất thành công cũng là phiên bản beta, vì vậy cho mỗi , chúng ta có một phân bố sau của TPR và FPR giá trị. Điều này đưa chúng ta đến sự quan sát thứ hai của tôi.
- Đường cong ROC không giảm. Vì vậy, một khi ai đã lấy mẫu một số giá trị của và F P R ( θ ) , có zero xác suất lấy mẫu một điểm trong không gian Trung Hoa Dân Quốc "phía đông nam" của các điểm lấy mẫu. Nhưng lấy mẫu hạn chế hình dạng là một vấn đề khó khăn.
Cách tiếp cận Bayes có thể được sử dụng để mô phỏng số lượng lớn AUC từ một bộ ước tính duy nhất. Ví dụ, 20 mô phỏng trông như thế này so với dữ liệu gốc.
Phương pháp này có một số lợi thế. Ví dụ, xác suất AUC của một mô hình lớn hơn mô hình khác có thể được ước tính trực tiếp bằng cách so sánh AUC của các mô phỏng sau của chúng. Ước tính phương sai có thể thu được thông qua mô phỏng, rẻ hơn so với phương pháp lấy mẫu lại và các ước tính này không phát sinh vấn đề về các mẫu tương quan phát sinh từ phương pháp lấy mẫu lại.
Dung dịch
Tôi đã phát triển một giải pháp cho vấn đề này bằng cách thực hiện quan sát thứ ba và thứ tư về bản chất của vấn đề, ngoài hai vấn đề trên.
và F P R ( θ ) có mật độ biên mà đều tuân theo mô phỏng.
Nếu (phó F P R ( θ ) ) là một biến ngẫu nhiên beta-phân phối với các thông số T P và F N (phó F P và T N ), chúng tôi cũng có thể xem xét những gì mật độ TPR là trung bình so với giá trị khác nhau θ mà tương ứng với phân tích của chúng tôi. Nghĩa là, chúng ta có thể xem xét một quá trình theo cấp bậc mà một mẫu một giá trị ~ θ từ bộ sưu tập của θ giá trị thu được bằng cách out-of-mẫu mô hình dự báo của chúng tôi, và sau đó mẫu một giá trị của . một phân tán trên các mẫu kết quả của T P R ( ~ θ ) giá trị là mật độ tỷ lệ dương tính thật đó là trên vô điều kiện riêng của mình. Bởi vì chúng ta đang giả định một mô hình phiên bản beta cho , phân phối kết quả là một hỗn hợp của các bản phân phối phiên bản beta, với một số thành phần c tương đương với kích thước của bộ sưu tập của chúng ta về θ , và hệ số hỗn hợp 1 / .
Trong ví dụ này, tôi đã thu được CDF sau trên TPR. Đáng chú ý, do sự suy biến của các bản phân phối beta trong đó một trong các tham số bằng 0, một số thành phần hỗn hợp là hàm delta Dirac ở 0 hoặc 1. Đây là nguyên nhân gây ra các đột biến ở 0 và 1. Các "gai" này ngụ ý rằng các mật độ này không liên tục cũng không rời rạc. Một lựa chọn ưu tiên dương trong cả hai tham số sẽ có tác dụng "làm mịn" các gai đột ngột này (không hiển thị), nhưng các đường cong ROC kết quả sẽ được kéo về phía trước. Điều tương tự có thể được thực hiện cho FPR (không hiển thị). Vẽ các mẫu từ mật độ biên là một ứng dụng đơn giản của lấy mẫu biến đổi nghịch đảo.
Để giải quyết yêu cầu ràng buộc hình dạng, chúng ta chỉ cần sắp xếp TPR và FPR một cách độc lập.
So sánh với Bootstrap
Trình diễn này cho thấy giá trị trung bình của bootstrap bị sai lệch dưới giá trị trung bình của mẫu ban đầu và KDE của bootstrap mang lại "bướu" được xác định rõ. Nguồn gốc của các bướu này hầu như không bí ẩn - đường cong ROC sẽ nhạy cảm với sự bao gồm của từng điểm và ảnh hưởng của một mẫu nhỏ (ở đây, n = 20) là thống kê cơ bản nhạy hơn với sự bao gồm của từng điểm điểm. (Nhấn mạnh, việc tạo khuôn này không phải là một yếu tố của băng thông kernel - lưu ý biểu đồ tấm thảm. Mỗi sọc là một số bản sao bootstrap có cùng giá trị. Bootstrap có 2000 lần lặp, nhưng số lượng giá trị riêng biệt rõ ràng nhỏ hơn nhiều. có thể kết luận rằng các bướu là một tính năng nội tại của thủ tục bootstrap.) Ngược lại, ước tính AUC của Bayes có xu hướng rất gần với ước tính ban đầu,
Câu hỏi
Câu hỏi sửa đổi của tôi là liệu giải pháp sửa đổi của tôi là không chính xác. Một câu trả lời tốt sẽ chứng minh (hoặc không chứng minh) rằng các mẫu kết quả của các đường cong ROC bị sai lệch, hoặc tương tự chứng minh hoặc bác bỏ các phẩm chất khác của phương pháp này.