Khoảng tin cậy cho độ chính xác phân loại chéo

Tôi đang làm việc với một vấn đề phân loại tính toán một số liệu tương tự giữa hai hình ảnh X quang đầu vào. Nếu các hình ảnh là của cùng một người (nhãn 'phải'), số liệu cao hơn sẽ được tính; hình ảnh đầu vào của hai người khác nhau (nhãn 'sai') sẽ dẫn đến số liệu thấp hơn.

Tôi đã sử dụng xác nhận chéo 10 lần phân tầng để tính xác suất phân loại sai. Cỡ mẫu hiện tại của tôi là khoảng 40 kết quả đúng và 80 kết quả khớp sai, trong đó mỗi điểm dữ liệu là số liệu được tính toán. Tôi nhận được xác suất phân loại sai là 0,00, nhưng tôi cần một số loại phân tích khoảng tin cậy / lỗi về điều này.

Tôi đang xem xét sử dụng khoảng tin cậy tỷ lệ nhị thức (trong đó tôi sử dụng kết quả xác thực chéo làm nhãn chính xác hoặc ghi nhãn không chính xác cho số lần thành công của tôi). Tuy nhiên, một trong những giả định đằng sau phân tích nhị thức là cùng xác suất thành công cho mỗi thử nghiệm và tôi không chắc liệu phương pháp đằng sau việc phân loại 'đúng' hay 'sai' trong xác thực chéo có thể được coi là có cùng xác suất thành công.

Phân tích duy nhất khác mà tôi có thể nghĩ đến là lặp lại xác thực chéo X lần và tính độ lệch trung bình / độ lệch chuẩn của lỗi phân loại, nhưng tôi không chắc liệu điều này có phù hợp hay không vì tôi đang sử dụng lại dữ liệu từ cỡ mẫu tương đối nhỏ vài lần.

Có suy nghĩ gì không? Tôi đang sử dụng MATLAB cho tất cả các phân tích của mình và tôi có hộp công cụ Thống kê. Sẽ đánh giá cao bất kỳ và tất cả các hỗ trợ!

— Sean
nguồn

Xác suất phân loại sai là 0,00 có nghĩa là bạn có được độ chính xác phân loại 100% trên mỗi 10 lần xác thực chéo?

— amip nói rằng Phục hồi lại

Vâng cái này đúng rồi. Mỗi nếp gấp dẫn đến không có phân loại sai; 0,00 tôi đã báo cáo đại diện cho tổng số phân loại sai (0) trong tổng số các trường hợp thử nghiệm (120).

— Sean

BTW, chính xác ý bạn là gì khi xác thực chéo "phân tầng"? Trên mỗi lần gấp CV bạn có 120/10 = 12 mẫu thử, luôn có 4 trận đấu và 8 trận không khớp?

— amip nói rằng Phục hồi lại

Đúng, chính xác là như vậy - ít nhất đó là cách tôi hiểu cách nó được thực hiện trong MATLAB. Mỗi nếp gấp phải chứa cùng một tỷ lệ của nhãn lớp 'đúng' / 'sai', là 1: 2.

— Sean

Câu trả lời:

Ảnh hưởng của sự không ổn định trong các dự đoán của các mô hình thay thế khác nhau

Tuy nhiên, một trong những giả định đằng sau phân tích nhị thức là cùng xác suất thành công cho mỗi thử nghiệm và tôi không chắc liệu phương pháp đằng sau việc phân loại 'đúng' hay 'sai' trong xác thực chéo có thể được coi là có cùng xác suất thành công.

Chà, thường thì sự bình đẳng đó là một giả định cũng cần thiết để cho phép bạn gộp kết quả của các mô hình thay thế khác nhau.

Trong thực tế, trực giác của bạn rằng giả định này có thể bị vi phạm thường là đúng. Nhưng bạn có thể đo xem đây là trường hợp. Đó là nơi tôi thấy xác nhận chéo lặp lại hữu ích: Tính ổn định của các dự đoán cho cùng một trường hợp bởi các mô hình thay thế khác nhau cho phép bạn đánh giá xem các mô hình có tương đương (dự đoán ổn định) hay không.

Đây là một sơ đồ của xác thực chéo lặp đi lặp lại (còn được lặp lại) : $k$
xác nhận chéo k-lần lặp

Các lớp học có màu đỏ và màu xanh. Các vòng tròn bên phải tượng trưng cho các dự đoán. Trong mỗi lần lặp, mỗi mẫu được dự đoán chính xác một lần. Thông thường, giá trị trung bình lớn được sử dụng làm ước tính hiệu suất, mặc nhiên giả định rằng hiệu suất của các mô hình thay thế là bằng nhau. Nếu bạn tìm kiếm từng mẫu tại các dự đoán được tạo bởi các mô hình thay thế khác nhau (nghĩa là trên các cột), bạn có thể thấy mức độ ổn định của các dự đoán cho mẫu này. $i \cdot k$

Bạn cũng có thể tính hiệu suất cho mỗi lần lặp (khối 3 hàng trong bản vẽ). Bất kỳ phương sai nào giữa các điều này có nghĩa là giả định rằng các mô hình thay thế là tương đương (với nhau và hơn nữa là "mô hình lớn" được xây dựng trên tất cả các trường hợp) không được đáp ứng. Nhưng điều này cũng cho bạn biết bạn có bao nhiêu bất ổn. Đối với tỷ lệ nhị thức, tôi nghĩ miễn là hiệu suất thực sự là như nhau (nghĩa là độc lập cho dù luôn luôn cùng một trường hợp được dự đoán sai hay liệu cùng một số nhưng các trường hợp khác nhau được dự đoán sai). Tôi không biết liệu người ta có thể giả định một cách hợp lý một phân phối cụ thể cho hiệu suất của các mô hình thay thế hay không. Nhưng tôi nghĩ rằng trong mọi trường hợp, đó là một lợi thế so với báo cáo phổ biến về các lỗi phân loại nếu bạn báo cáo sự không ổn định đó. $k$ mô hình thay thế đã được gộp chung cho mỗi lần lặp, phương sai không ổn định gần gấp lần phương sai quan sát được giữa các lần lặp. $k$

Tôi thường phải làm việc với ít hơn 120 trường hợp độc lập, vì vậy tôi đặt sự chính quy hóa rất mạnh mẽ lên các mô hình của mình. Sau đó tôi thường có thể chỉ ra rằng phương sai không ổn định là so với phương sai kích thước mẫu thử hữu hạn. (Và tôi nghĩ rằng điều này hợp lý cho việc mô hình hóa vì con người thiên về phát hiện các mẫu và do đó bị lôi kéo vào việc xây dựng các mô hình quá phức tạp và do đó quá mức). Tôi thường báo cáo tỷ lệ phần trăm của phương sai không ổn định quan sát được qua các lần lặp (và , và ) và khoảng tin cậy nhị thức trên hiệu suất quan sát trung bình đối với cỡ mẫu thử hữu hạn. $\ll$
$n$ $k$ $i$

Bản vẽ là một phiên bản mới hơn của fig. 5 trong bài báo này: Beleites, C. & Salzer, R.: Đánh giá và cải thiện tính ổn định của các mô hình hóa học trong các tình huống cỡ mẫu nhỏ, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Lưu ý rằng khi chúng tôi viết bài báo tôi vẫn chưa nhận ra đầy đủ các nguồn phương sai khác nhau mà tôi đã giải thích ở đây - hãy ghi nhớ điều đó. Do đó, tôi nghĩ rằng các cuộc tranh luậnđể ước lượng kích thước mẫu hiệu quả được đưa ra là không chính xác, mặc dù kết luận ứng dụng rằng các loại mô khác nhau trong mỗi bệnh nhân đóng góp về thông tin tổng thể như một bệnh nhân mới với một loại mô nhất định có thể vẫn còn hiệu lực (tôi có một loại hoàn toàn khác bằng chứng cũng chỉ ra cách đó). Tuy nhiên, tôi vẫn chưa hoàn toàn chắc chắn về điều này (cũng như làm thế nào để làm nó tốt hơn và do đó có thể kiểm tra) và vấn đề này không liên quan đến câu hỏi của bạn.

Hiệu suất nào để sử dụng cho khoảng tin cậy nhị thức?

Cho đến nay, tôi đã sử dụng hiệu suất quan sát trung bình. Bạn cũng có thể sử dụng hiệu suất quan sát kém nhất: hiệu suất quan sát càng gần 0,5, phương sai càng lớn và do đó khoảng tin cậy. Do đó, khoảng tin cậy của hiệu suất quan sát gần 0,5 cung cấp cho bạn một số "mức an toàn" bảo thủ.

Lưu ý rằng một số phương pháp để tính khoảng tin cậy nhị thức cũng hoạt động nếu số lần thành công được quan sát không phải là số nguyên. Tôi sử dụng "tích hợp xác suất sau Bayes" như được mô tả trong
Ross, TD: Khoảng tin cậy chính xác cho tỷ lệ nhị thức và ước tính tỷ lệ Poisson, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2

(Tôi không biết về Matlab, nhưng trong R bạn có thể sử dụng binom::binom.bayesvới cả hai tham số hình dạng được đặt thành 1).

Những suy nghĩ này áp dụng cho các mô hình dự đoán được xây dựng dựa trên năng suất tập dữ liệu huấn luyện này cho các trường hợp mới chưa biết. Nếu bạn cần khái quát hóa các tập dữ liệu huấn luyện khác được rút ra từ cùng một nhóm trường hợp, bạn cần ước tính số lượng mô hình được đào tạo trên một mẫu đào tạo mới có kích thước khác nhau. (Tôi không biết làm thế nào để làm điều đó ngoài việc lấy các bộ dữ liệu đào tạo mới "thể chất") $n$

Xem thêm: Bengio, Y. và Grandvalet, Y.: Không có ước tính không thiên vị về phương sai của xác thực chéo K-Fold, Tạp chí nghiên cứu máy học, 2004, 5, 1089-1105 .

(Suy nghĩ thêm về những điều này nằm trong danh sách việc cần làm của tôi ... nhưng vì tôi đến từ khoa học thực nghiệm, tôi muốn bổ sung cho kết luận lý thuyết và mô phỏng với dữ liệu thực nghiệm - điều này rất khó vì tôi cần một lượng lớn tập hợp các trường hợp độc lập để kiểm tra tham chiếu)

Cập nhật: có hợp lý để giả định một phân phối sinh học?

Tôi thấy CV gấp k giống như thí nghiệm ném đồng xu sau: thay vì ném một đồng xu một số lượng lớn, xu được sản xuất bởi cùng một máy được ném với số lần nhỏ hơn. Trong bức ảnh này, tôi nghĩ rằng @Tal chỉ ra rằng các đồng tiền không giống nhau. Điều này rõ ràng là đúng. Tôi nghĩ những gì nên và những gì có thể được thực hiện phụ thuộc vào giả định tương đương cho các mô hình thay thế. $k$

Nếu thực sự có sự khác biệt về hiệu suất giữa các mô hình thay thế (tiền xu), thì giả định "truyền thống" rằng các mô hình thay thế là tương đương không giữ được. Trong trường hợp đó, không chỉ phân phối không phải là nhị thức (như tôi đã nói ở trên, tôi không biết nên sử dụng phân phối nào: nó phải là tổng của nhị thức cho mỗi mô hình thay thế / mỗi đồng tiền). Tuy nhiên, lưu ý rằng điều này có nghĩa là việc gộp các kết quả của các mô hình thay thế là không được phép. Vì vậy, một nhị thức cho kiểm tra một xấp xỉ tốt (tôi cố gắng cải thiện xấp xỉ bằng cách nói rằng chúng ta có một nguồn biến thể bổ sung: sự không ổn định) cũng như hiệu suất trung bình không thể được sử dụng làm ước tính điểm mà không cần biện minh thêm. $n$

Mặt khác, hiệu suất (đúng) của người thay thế là như nhau, đó là khi tôi muốn nói với "các mô hình là tương đương" (một triệu chứng là các dự đoán là ổn định). Tôi nghĩ rằng trong trường hợp này, kết quả của tất cả các mô hình thay thế có thể được gộp lại và phân phối nhị thức cho tất cả thử nghiệm sẽ được sử dụng: Tôi nghĩ rằng trong trường hợp đó, chúng ta có lý khi ước tính các thật của các mô hình thay thế là bằng nhau và do đó mô tả bài kiểm tra tương đương với việc ném một đồng xu lần. $n$ $p$ $n$

— cbeleites không hài lòng với SX
nguồn

Xin chào @cbeleites, tôi chỉ nhận xét rằng kết quả phân tích CV của tôi có 2 giá trị duy nhất cho bộ dữ liệu cụ thể đó (một số bộ dữ liệu khác có N giá trị duy nhất, với N thường nhỏ hơn 5), giống như amip được mô tả ở trên. Với điều này, làm thế nào tôi có thể chỉ ra rằng các dự đoán của tôi ổn định chỉ bằng cách sử dụng tập dữ liệu và CV duy nhất của tôi? Liên quan đến phân phối nhị thức, tôi đã xem xét khoảng thời gian Agresti-Coull (có thể hoạt động với tỷ lệ thành công cao / tỷ lệ thành công 100% mà không bị trục trặc). Có vẻ như bạn đang nói rằng tôi có thể sử dụng phân phối nhị thức, nhưng tôi vẫn chưa rõ làm thế nào tôi có thể biện minh cho giả định đó về cùng một thử nghiệm thành công.

— Sean

@cbeleites: [Tôi đã xóa nhận xét trước đây của mình vào câu trả lời của bạn và sao chép ở đây một phần của nó.] Nhưng điều đó có nghĩa gì khi cho thấy "các dự đoán ổn định"? CV lặp đi lặp lại sẽ không cho kết quả hoàn toàn giống nhau. Ví dụ: giả sử OP chạy 1000 lần lặp lại CV và nhận tỷ lệ lỗi từ 0/120 đến 2/120 với một phân phối nhất định. Có cách nào để kết hợp phương sai này với phương sai nhị thức không? Và nào tính một khoảng nhị thức sau đó?

p

$p$

— amip nói rằng Phục hồi lại

@amoeba: Tôi không biết làm thế nào để kết hợp phân phối nhị thức với phân phối chưa biết do không ổn định thành một khoảng tin cậy. Vì vậy, tôi báo cáo các phần trăm quan sát được cho độ ổn định (in) và nhị thức cho kích thước mẫu thử hữu hạn. Làm thế nào để kết hợp chúng là một trong những câu hỏi nghiên cứu tôi giữ lại trong đầu, nhưng cho đến nay tôi vẫn chưa tìm được giải pháp cũng như không gặp ai có. Tôi đoán rằng chúng tôi đã đi đầu trong nghiên cứu ...

— cbeleites không hài lòng với SX

@Sean: Bạn đã thấy câu hỏi gần đây của tôi về các vấn đề liên quan? Có một cuộc thảo luận rất thú vị (đối với tôi) đang diễn ra trong các bình luận, và hiện tại tôi đang tự mình thực hiện một số mô phỏng. Tôi đã tin rằng giả định nhị thức là sai lầm nghiêm trọng! Bạn cũng có thể quan tâm đến một số tài liệu tham khảo được cung cấp ở đó yêu cầu điều tương tự.

— amip nói phục hồi Monica

@Sean: Tôi sẽ cố gắng cập nhật hai chủ đề này, điều đó có nghĩa là sau khi (và nếu) vấn đề được làm rõ hơn, tôi sẽ cố gắng tóm tắt tình huống ở đó và cũng để cung cấp câu trả lời mới tại đây. Bây giờ, bạn có nhận thấy bài báo này được liên kết trong các chủ đề khác? Các tác giả thảo luận chính xác câu hỏi của bạn và cung cấp một quy trình bootstrap mà họ cho là hoạt động tốt. Nếu tôi đã viết một câu trả lời cho câu hỏi của bạn ngay bây giờ, tôi sẽ đề nghị thủ tục của họ. Nhưng nó sẽ có ý nghĩa đầu tiên để kiểm tra 24 giấy tờ trích dẫn giấy đó.

— amip nói rằng Tái lập lại Monica

Tôi nghĩ rằng ý tưởng của bạn về việc lặp lại xác nhận chéo nhiều lần là đúng trên nhãn hiệu.

Lặp lại CV của bạn, giả sử 1000 lần, mỗi lần chia dữ liệu của bạn thành 10 phần (đối với CV gấp 10 lần) theo một cách khác ( không xáo trộn các nhãn). Bạn sẽ nhận được 1000 ước tính về độ chính xác phân loại. Tất nhiên, bạn sẽ sử dụng lại cùng một dữ liệu, vì vậy 1000 ước tính này sẽ không độc lập. Nhưng đây là tương tự như thủ tục bootstrap: bạn có thể lấy độ lệch chuẩn so với các độ chính xác này như là lỗi tiêu chuẩn của giá trị trung bình của công cụ ước tính độ chính xác tổng thể của bạn. Hoặc khoảng 95% là khoảng tin cậy 95%.

Ngoài ra, bạn có thể kết hợp vòng xác thực chéo và vòng lặp bootstrap và chỉ cần chọn ngẫu nhiên (có thể phân tầng ngẫu nhiên) 10% dữ liệu của bạn dưới dạng tập kiểm tra và thực hiện 1000 lần này. Lý do tương tự như trên cũng áp dụng ở đây. Tuy nhiên, điều này sẽ dẫn đến phương sai cao hơn so với các lần lặp lại, vì vậy tôi nghĩ rằng quy trình trên là tốt hơn.

Nếu tỷ lệ phân loại sai của bạn là 0,00, trình phân loại của bạn không có lỗi và nếu điều này xảy ra trên mỗi lần lặp bootstrap, bạn sẽ nhận được khoảng tin cậy rộng bằng không. Nhưng điều này chỉ đơn giản có nghĩa là bộ phân loại của bạn khá hoàn hảo, rất tốt cho bạn.

— amip nói phục hồi Monica
nguồn

Xin chào @amoeba, cảm ơn phản hồi của bạn. Bạn có phiền giải thích thêm một chút về đề xuất đầu tiên của bạn trong việc lặp lại CV 1000 lần bằng cách hoán vị ngẫu nhiên các mẫu không? Có nên có một tỷ lệ được thiết lập sẵn của bộ kiểm tra: tập huấn luyện (ví dụ 10:90 cho xác thực chéo 10 lần) không? Tôi đoán tôi hơi không rõ việc lặp lại xác nhận 10 lần sẽ làm tăng phương sai theo thời gian như thế nào.

— Sean

Tôi e rằng quy trình thứ hai mà @amoeba đề xuất là quá lạc quan: một trình phân loại không hoàn hảo có thể có hiệu suất hoàn hảo trên một tập dữ liệu nhất định (ví dụ: giả sử bạn chỉ có 4 mẫu - đó là tỷ lệ 1: 8 để phân loại tất cả chúng chính xác là tình cờ). Như amip đã lưu ý, việc đo lường phương sai đối với các phân bổ khác nhau của các lần thử tàu sẽ tạo ra khoảng tin cậy 0 chiều rộng, điều này rõ ràng không chính xác trong trường hợp này.

— Trisoloriansunscreen

Tôi nghĩ rằng cuối cùng, vấn đề này xuất phát từ việc tìm xác suất quan sát dữ liệu khác với những gì tôi chưa quan sát được. Lấy khoảng tin cậy cho mẫu của tôi là những gì @amoeba gợi ý cho câu hỏi ban đầu của tôi (tôi đã sử dụng các nếp gấp ngẫu nhiên cho mỗi lần lặp CV) và kết quả có vẻ thực tế hơn (95% CI: [0,0028, 0,0033]). Tuy nhiên, tôi không biết nếu có một kỹ thuật khác sẽ tốt hơn cho dự đoán dữ liệu trong tương lai. Có lẽ một số cách tiếp cận dựa trên mô hình nơi tôi khớp đường cong với dữ liệu của mình và tính toán sự chồng chéo của chúng?

— Sean

@amoeba: Cảm ơn bạn đã làm rõ, tôi đoán tôi đã không đọc câu trả lời của bạn đủ cẩn thận. Tuy nhiên, tôi vẫn gặp rắc rối về sự thiên vị lạc quan của phương pháp này (cả hai thủ tục). Bằng cách đo độ chính xác trong khi thử các phân tách CV khác nhau, bạn ước tính độ biến thiên gây ra bởi sự phân tách tùy ý. Tuy nhiên, bạn bỏ qua thực tế toàn bộ dữ liệu của bạn là một mẫu ngẫu nhiên của dân số quan sát lớn hơn (mà bạn không thu thập được). Nếu bạn có một tập dữ liệu nhỏ mà tình cờ đạt được hiệu suất hoàn hảo (bất kể phân tách CV), khoảng tin cậy của bạn bằng 0 và điều này là không chính xác.

— Trisoloriansunscreen

@amoeba: Thật khó khăn, vì bạn không thể tự khởi động các quan sát (xem xét một phân loại hàng xóm gần nhất trong trường hợp đó). Tôi đang phải vật lộn với vấn đề đó, hãy xem liệu có ai khác nghĩ ra ý tưởng không.

— Trisoloriansunscreen

Lỗi phân loại là không liên tục và quy tắc chấm điểm không đúng. Nó có độ chính xác thấp, và tối ưu hóa nó chọn các tính năng sai và cung cấp cho chúng trọng lượng sai.

— Frank Mitchell
nguồn

Điều này khó có thể là một vấn đề đối với OP nếu anh ta có được độ chính xác phân loại được xác thực chéo 99-100%.

— amip nói phục hồi Monica

@amoeba: Cũng có thể là một vấn đề nếu quan sát tỷ lệ chính xác gần 100 hoặc 0%: ngược lại với các biện pháp hiệu suất dựa trên điểm số liên tục, bất kỳ loại hiệu suất nào được đo sau khi phân đôi (làm cứng) điểm số phân loại liên tục không thể chỉ ra các dự đoán đang tiến gần đến biên giới quyết định miễn là chúng vẫn ở phía đúng. Tuy nhiên, IMHO có những lý do hợp lệ để báo cáo các biện pháp thực hiện theo tỷ lệ (ví dụ: nếu độc giả / cộng tác viên của bạn hiểu chúng, nhưng không hiểu ví dụ như điểm Brier). Tôi không muốn mở điều đó ...

— cbeleites không hài lòng với SX

... dòng thảo luận vì không có dấu hiệu tối ưu hóa trong câu hỏi (đó là nơi điều này trở nên thực sự quan trọng).

— cbeleites không hài lòng với SX

Nếu bạn tính toán tỷ lệ "chính xác", bạn phải thực hiện nó vì một lý do, ví dụ, để đưa ra đánh giá hoặc thực hiện một hành động. Tỷ lệ này là sai lệch cho các mục đích này.

— Frank Harrell

@FrankHarrell: Chà, lý do tôi đoán là báo cáo nó trong một bài báo. Bạn có nghĩ rằng mọi người nên ngừng báo cáo chính xác phân loại không?

— amip nói phục hồi Monica