Ảnh hưởng của sự không ổn định trong các dự đoán của các mô hình thay thế khác nhau
Tuy nhiên, một trong những giả định đằng sau phân tích nhị thức là cùng xác suất thành công cho mỗi thử nghiệm và tôi không chắc liệu phương pháp đằng sau việc phân loại 'đúng' hay 'sai' trong xác thực chéo có thể được coi là có cùng xác suất thành công.
Chà, thường thì sự bình đẳng đó là một giả định cũng cần thiết để cho phép bạn gộp kết quả của các mô hình thay thế khác nhau.
Trong thực tế, trực giác của bạn rằng giả định này có thể bị vi phạm thường là đúng. Nhưng bạn có thể đo xem đây là trường hợp. Đó là nơi tôi thấy xác nhận chéo lặp lại hữu ích: Tính ổn định của các dự đoán cho cùng một trường hợp bởi các mô hình thay thế khác nhau cho phép bạn đánh giá xem các mô hình có tương đương (dự đoán ổn định) hay không.
Đây là một sơ đồ của xác thực chéo lặp đi lặp lại (còn được lặp lại) :k

Các lớp học có màu đỏ và màu xanh. Các vòng tròn bên phải tượng trưng cho các dự đoán. Trong mỗi lần lặp, mỗi mẫu được dự đoán chính xác một lần. Thông thường, giá trị trung bình lớn được sử dụng làm ước tính hiệu suất, mặc nhiên giả định rằng hiệu suất của các mô hình thay thế là bằng nhau. Nếu bạn tìm kiếm từng mẫu tại các dự đoán được tạo bởi các mô hình thay thế khác nhau (nghĩa là trên các cột), bạn có thể thấy mức độ ổn định của các dự đoán cho mẫu này.tôi ⋅ k
Bạn cũng có thể tính hiệu suất cho mỗi lần lặp (khối 3 hàng trong bản vẽ). Bất kỳ phương sai nào giữa các điều này có nghĩa là giả định rằng các mô hình thay thế là tương đương (với nhau và hơn nữa là "mô hình lớn" được xây dựng trên tất cả các trường hợp) không được đáp ứng. Nhưng điều này cũng cho bạn biết bạn có bao nhiêu bất ổn. Đối với tỷ lệ nhị thức, tôi nghĩ miễn là hiệu suất thực sự là như nhau (nghĩa là độc lập cho dù luôn luôn cùng một trường hợp được dự đoán sai hay liệu cùng một số nhưng các trường hợp khác nhau được dự đoán sai). Tôi không biết liệu người ta có thể giả định một cách hợp lý một phân phối cụ thể cho hiệu suất của các mô hình thay thế hay không. Nhưng tôi nghĩ rằng trong mọi trường hợp, đó là một lợi thế so với báo cáo phổ biến về các lỗi phân loại nếu bạn báo cáo sự không ổn định đó.kk mô hình thay thế đã được gộp chung cho mỗi lần lặp, phương sai không ổn định gần gấp lần phương sai quan sát được giữa các lần lặp.k
Tôi thường phải làm việc với ít hơn 120 trường hợp độc lập, vì vậy tôi đặt sự chính quy hóa rất mạnh mẽ lên các mô hình của mình. Sau đó tôi thường có thể chỉ ra rằng phương sai không ổn định là so với phương sai kích thước mẫu thử hữu hạn. (Và tôi nghĩ rằng điều này hợp lý cho việc mô hình hóa vì con người thiên về phát hiện các mẫu và do đó bị lôi kéo vào việc xây dựng các mô hình quá phức tạp và do đó quá mức).
Tôi thường báo cáo tỷ lệ phần trăm của phương sai không ổn định quan sát được qua các lần lặp (và , và ) và khoảng tin cậy nhị thức trên hiệu suất quan sát trung bình đối với cỡ mẫu thử hữu hạn.N k i≪
nki
Bản vẽ là một phiên bản mới hơn của fig. 5 trong bài báo này: Beleites, C. & Salzer, R.: Đánh giá và cải thiện tính ổn định của các mô hình hóa học trong các tình huống cỡ mẫu nhỏ, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Lưu ý rằng khi chúng tôi viết bài báo tôi vẫn chưa nhận ra đầy đủ các nguồn phương sai khác nhau mà tôi đã giải thích ở đây - hãy ghi nhớ điều đó. Do đó, tôi nghĩ rằng các cuộc tranh luậnđể ước lượng kích thước mẫu hiệu quả được đưa ra là không chính xác, mặc dù kết luận ứng dụng rằng các loại mô khác nhau trong mỗi bệnh nhân đóng góp về thông tin tổng thể như một bệnh nhân mới với một loại mô nhất định có thể vẫn còn hiệu lực (tôi có một loại hoàn toàn khác bằng chứng cũng chỉ ra cách đó). Tuy nhiên, tôi vẫn chưa hoàn toàn chắc chắn về điều này (cũng như làm thế nào để làm nó tốt hơn và do đó có thể kiểm tra) và vấn đề này không liên quan đến câu hỏi của bạn.
Hiệu suất nào để sử dụng cho khoảng tin cậy nhị thức?
Cho đến nay, tôi đã sử dụng hiệu suất quan sát trung bình. Bạn cũng có thể sử dụng hiệu suất quan sát kém nhất: hiệu suất quan sát càng gần 0,5, phương sai càng lớn và do đó khoảng tin cậy. Do đó, khoảng tin cậy của hiệu suất quan sát gần 0,5 cung cấp cho bạn một số "mức an toàn" bảo thủ.
Lưu ý rằng một số phương pháp để tính khoảng tin cậy nhị thức cũng hoạt động nếu số lần thành công được quan sát không phải là số nguyên. Tôi sử dụng "tích hợp xác suất sau Bayes" như được mô tả trong
Ross, TD: Khoảng tin cậy chính xác cho tỷ lệ nhị thức và ước tính tỷ lệ Poisson, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2
(Tôi không biết về Matlab, nhưng trong R bạn có thể sử dụng binom::binom.bayes
với cả hai tham số hình dạng được đặt thành 1).
Những suy nghĩ này áp dụng cho các mô hình dự đoán được xây dựng dựa trên năng suất tập dữ liệu huấn luyện này cho các trường hợp mới chưa biết. Nếu bạn cần khái quát hóa các tập dữ liệu huấn luyện khác được rút ra từ cùng một nhóm trường hợp, bạn cần ước tính số lượng mô hình được đào tạo trên một mẫu đào tạo mới có kích thước khác nhau. (Tôi không biết làm thế nào để làm điều đó ngoài việc lấy các bộ dữ liệu đào tạo mới "thể chất")n
Xem thêm: Bengio, Y. và Grandvalet, Y.: Không có ước tính không thiên vị về phương sai của xác thực chéo K-Fold, Tạp chí nghiên cứu máy học, 2004, 5, 1089-1105 .
(Suy nghĩ thêm về những điều này nằm trong danh sách việc cần làm của tôi ... nhưng vì tôi đến từ khoa học thực nghiệm, tôi muốn bổ sung cho kết luận lý thuyết và mô phỏng với dữ liệu thực nghiệm - điều này rất khó vì tôi cần một lượng lớn tập hợp các trường hợp độc lập để kiểm tra tham chiếu)
Cập nhật: có hợp lý để giả định một phân phối sinh học?
Tôi thấy CV gấp k giống như thí nghiệm ném đồng xu sau: thay vì ném một đồng xu một số lượng lớn, xu được sản xuất bởi cùng một máy được ném với số lần nhỏ hơn. Trong bức ảnh này, tôi nghĩ rằng @Tal chỉ ra rằng các đồng tiền không giống nhau. Điều này rõ ràng là đúng. Tôi nghĩ những gì nên và những gì có thể được thực hiện phụ thuộc vào giả định tương đương cho các mô hình thay thế.k
Nếu thực sự có sự khác biệt về hiệu suất giữa các mô hình thay thế (tiền xu), thì giả định "truyền thống" rằng các mô hình thay thế là tương đương không giữ được. Trong trường hợp đó, không chỉ phân phối không phải là nhị thức (như tôi đã nói ở trên, tôi không biết nên sử dụng phân phối nào: nó phải là tổng của nhị thức cho mỗi mô hình thay thế / mỗi đồng tiền). Tuy nhiên, lưu ý rằng điều này có nghĩa là việc gộp các kết quả của các mô hình thay thế là không được phép. Vì vậy, một nhị thức cho kiểm tra một xấp xỉ tốt (tôi cố gắng cải thiện xấp xỉ bằng cách nói rằng chúng ta có một nguồn biến thể bổ sung: sự không ổn định) cũng như hiệu suất trung bình không thể được sử dụng làm ước tính điểm mà không cần biện minh thêm.n
Mặt khác, hiệu suất (đúng) của người thay thế là như nhau, đó là khi tôi muốn nói với "các mô hình là tương đương" (một triệu chứng là các dự đoán là ổn định). Tôi nghĩ rằng trong trường hợp này, kết quả của tất cả các mô hình thay thế có thể được gộp lại và phân phối nhị thức cho tất cả thử nghiệm sẽ được sử dụng: Tôi nghĩ rằng trong trường hợp đó, chúng ta có lý khi ước tính các thật của các mô hình thay thế là bằng nhau và do đó mô tả bài kiểm tra tương đương với việc ném một đồng xu lần.p nnpn