Làm cách nào để tôi chọn một mô hình từ đầu ra [xác nhận chéo bên ngoài] này?
Câu trả lời ngắn gọn: Bạn không.
Xử lý xác nhận chéo bên trong như là một phần của quy trình phù hợp mô hình. Điều đó có nghĩa là sự phù hợp bao gồm sự phù hợp của các tham số siêu (đây là nơi ẩn xác thực chéo bên trong) giống như bất kỳ thói quen esitmation mô hình nào khác.
Xác nhận chéo bên ngoài ước tính hiệu suất của phương pháp phù hợp mô hình này. Cho rằng bạn sử dụng các giả định thông thường
- các mô hình thay thế bên ngoài tương đương với mô hình "thực" được xây dựng bằng tất cả dữ liệu.k
model.fitting.procedure
- Hoặc, trong trường hợp 1. bị phá vỡ (sai lệch bi quan của xác nhận lại mẫu), ít nhất các mô hình thay thế bên ngoài tương đương với nhau.
Điều này cho phép bạn gộp (trung bình) kết quả kiểm tra. Điều đó cũng có nghĩa là bạn không cần phải chọn trong số họ vì bạn cho rằng về cơ bản chúng giống nhau. Việc phá vỡ giả định thứ hai, yếu hơn này là sự không ổn định của mô hình.k
Đừng không chọn dường như tốt nhất của mô hình thay thế - mà thường sẽ chỉ là "thu hoạch" thử nghiệm không chắc chắn và dẫn đến sự sai lệch lạc.k
Vậy làm thế nào tôi có thể sử dụng CV lồng nhau để lựa chọn mô hình?
Các nội CV hiện các lựa chọn.
Theo tôi, việc chọn mô hình tốt nhất trong số các mô hình chiến thắng K đó sẽ không phải là một so sánh công bằng vì mỗi mô hình đã được đào tạo và thử nghiệm trên các phần khác nhau của bộ dữ liệu.
Bạn đúng ở chỗ không nên chọn một trong những mô hình thay thế . Nhưng bạn đã sai về lý do. Lý do thực sự: xem ở trên. Việc họ không được đào tạo và thử nghiệm trên cùng một dữ liệu không "làm tổn thương" ở đây.k
- Không có cùng dữ liệu thử nghiệm: như bạn muốn tuyên bố sau đó rằng kết quả thử nghiệm tổng quát thành dữ liệu chưa từng thấy, điều này không thể tạo ra sự khác biệt.
- Không có cùng dữ liệu đào tạo:
- nếu các mô hình ổn định, điều này không tạo ra sự khác biệt: Ổn định ở đây có nghĩa là mô hình không thay đổi (nhiều) nếu dữ liệu đào tạo bị "nhiễu" bằng cách thay thế một vài trường hợp bằng các trường hợp khác.
- Nếu các mô hình không ổn định, ba cân nhắc là quan trọng:
- bạn thực sự có thể đo xem đây là trường hợp nào và ở mức độ nào, bằng cách sử dụng xác nhận chéo lặp lại / lặp lại . Điều đó cho phép bạn so sánh kết quả xác thực chéo cho cùng một trường hợp được dự đoán bởi các mô hình khác nhau được xây dựng trên dữ liệu đào tạo hơi khác nhau.k
- Nếu các mô hình không ổn định, phương sai quan sát được trong kết quả kiểm tra của xác thực chéo tăng lên: bạn không chỉ có phương sai do thực tế là chỉ có một số lượng các trường hợp hữu hạn được kiểm tra, nhưng có thêm phương sai do sự không ổn định của các mô hình (phương sai trong khả năng dự đoán).k
- Nếu sự không ổn định là một vấn đề thực sự, bạn không thể ngoại suy tốt hiệu năng cho mô hình "thực".
Điều này đưa tôi đến câu hỏi cuối cùng của bạn:
Những loại phân tích / kiểm tra nào tôi có thể làm với điểm số mà tôi nhận được từ các nếp gấp K bên ngoài?
- kiểm tra tính ổn định của các dự đoán (sử dụng xác thực chéo / lặp lại)
kiểm tra tính ổn định / biến thể của các siêu tham số được tối ưu hóa.
Đối với một điều, các siêu tham số tán xạ cực mạnh có thể chỉ ra rằng tối ưu hóa bên trong không hoạt động. Đối với một điều khác, điều này có thể cho phép bạn quyết định các siêu đường kính mà không cần bước tối ưu hóa tốn kém trong các tình huống tương tự trong tương lai. Với chi phí đắt, tôi không đề cập đến tài nguyên tính toán mà thực tế là thông tin "chi phí" này có thể được sử dụng tốt hơn để ước tính các tham số mô hình "bình thường".
kiểm tra sự khác biệt giữa ước tính bên trong và bên ngoài của mô hình đã chọn. Nếu có một sự khác biệt lớn (nội tâm rất quá mức), có nguy cơ tối ưu hóa bên trong không hoạt động tốt vì quá nhiều.
Cập nhật câu hỏi của @ user99889: Phải làm gì nếu CV bên ngoài thấy không ổn định?
Trước hết, việc phát hiện trong vòng CV bên ngoài rằng các mô hình không mang lại dự đoán ổn định ở khía cạnh đó không thực sự khác biệt với việc phát hiện ra rằng lỗi dự đoán là quá cao đối với ứng dụng. Đó là một trong những kết quả có thể có của xác nhận mô hình (hoặc xác minh) ngụ ý rằng mô hình chúng tôi có không phù hợp với mục đích của nó.
Trong phần trả lời bình luận @davips, tôi đã nghĩ đến việc giải quyết sự không ổn định trong CV bên trong - tức là một phần của quy trình tối ưu hóa mô hình.
Nhưng bạn chắc chắn đúng: nếu chúng tôi thay đổi mô hình của chúng tôi dựa trên những phát hiện của CV bên ngoài, thì một vòng thử nghiệm độc lập khác của mô hình đã thay đổi là cần thiết.
Tuy nhiên, sự không ổn định trong CV bên ngoài cũng sẽ là một dấu hiệu cho thấy việc tối ưu hóa không được thiết lập tốt - vì vậy việc tìm thấy sự không ổn định trong CV bên ngoài ngụ ý rằng CV bên trong không xử phạt sự mất ổn định theo cách cần thiết - đây sẽ là điểm chính của tôi phê bình trong một tình huống như vậy. Nói cách khác, tại sao việc tối ưu hóa lại cho phép / dẫn đến các mô hình quá phù hợp?
Tuy nhiên, có một điểm đặc biệt ở đây là IMHO có thể tha thứ cho sự thay đổi tiếp theo của mô hình "cuối cùng" sau khi xem xét cẩn thận các trường hợp chính xác : Khi chúng tôi phát hiện ra quá mức, mọi thay đổi được đề xuất (ít df / hạn chế hoặc tổng hợp hơn) cho mô hình sẽ theo hướng ít quá mức (hoặc ít nhất là siêu đường kính ít bị quá mức). Điểm của kiểm tra độc lập là phát hiện quá mức - thiếu chất lượng có thể được phát hiện bởi dữ liệu đã được sử dụng trong quá trình đào tạo.
Vì vậy, nếu chúng ta đang nói, về việc giảm thêm số lượng biến tiềm ẩn trong mô hình PLS sẽ tương đối lành tính (nếu thay đổi được đề xuất sẽ là một loại mô hình hoàn toàn khác, giả sử PLS thay vì SVM, tất cả các cược sẽ bị tắt ), và tôi thậm chí sẽ thoải mái hơn về điều đó nếu tôi biết rằng chúng ta dù sao cũng đang ở giai đoạn trung gian của mô hình hóa - sau tất cả, nếu các mô hình được tối ưu hóa vẫn không ổn định, không có câu hỏi nào cần thêm trường hợp. Ngoài ra, trong nhiều tình huống, cuối cùng bạn sẽ cần thực hiện các nghiên cứu được thiết kế để kiểm tra chính xác các khía cạnh khác nhau của hiệu suất (ví dụ: khái quát hóa dữ liệu thu được trong tương lai). Tuy nhiên, tôi khẳng định rằng quy trình mô hình hóa đầy đủ sẽ cần phải được báo cáo và ý nghĩa của những thay đổi muộn này sẽ cần được thảo luận cẩn thận.
Ngoài ra, có thể tổng hợp ước tính hiệu suất CV tương tự và bao gồm các kết quả có sẵn từ các kết quả đã có sẵn - đây là loại "xử lý hậu kỳ" khác của mô hình mà tôi sẵn sàng xem xét lành tính ở đây. Tuy nhiên, một lần nữa, sẽ tốt hơn nếu nghiên cứu được thiết kế ngay từ đầu để kiểm tra xem tập hợp không mang lại lợi thế nào cho các dự đoán riêng lẻ (đó là một cách khác để nói rằng các mô hình riêng lẻ ổn định).
Cập nhật (2019): tôi càng nghĩ về những tình huống này, tôi càng ủng hộ phương pháp "xác thực chéo lồng nhau rõ ràng mà không cần lồng" .