Tôi có một câu hỏi về lựa chọn mô hình và hiệu suất mô hình trong hồi quy logistic. Tôi có ba mô hình dựa trên ba giả thuyết khác nhau. Hai mô hình đầu tiên (cho phép đặt tên chúng là z và x) chỉ có một biến giải thích trong mỗi mô hình và mô hình thứ ba (hãy đặt tên cho nó là w) phức tạp hơn. Tôi đang sử dụng AIC để lựa chọn biến cho mô hình w và sau đó là AIC để so sánh mô hình nào trong ba mô hình giải thích biến phụ thuộc tốt nhất. Tôi đã thấy rằng mô hình w có AIC thấp nhất và bây giờ muốn thực hiện một số thống kê hiệu suất trên mô hình đó để có một số ý tưởng về sức mạnh dự đoán của mô hình. Vì tất cả những gì tôi biết là mô hình này tốt hơn hai mô hình kia nhưng không tốt như thế nào.
Vì tôi đã sử dụng tất cả dữ liệu để tìm hiểu mô hình (để có thể so sánh cả ba mô hình), làm thế nào để tôi thực hiện với hiệu suất mô hình? Từ những gì tôi đã thu thập được, tôi không thể thực hiện xác nhận chéo gấp đôi trên mô hình cuối cùng tôi nhận được từ lựa chọn mô hình bằng AIC nhưng cần bắt đầu lại từ đầu với tất cả các biến giải thích được bao gồm, điều này có đúng không? Tôi nghĩ rằng đó là mô hình cuối cùng tôi đã chọn với AIC mà tôi muốn biết nó hoạt động tốt như thế nào, nhưng tôi nhận ra rằng tôi đã đào tạo về tất cả dữ liệu để mô hình có thể bị sai lệch. Vì vậy, nếu tôi nên bắt đầu lại từ đầu với tất cả các biến giải thích trong tất cả các nếp gấp, tôi sẽ nhận được các mô hình cuối cùng khác nhau cho một số nếp gấp, tôi có thể chọn mô hình từ nếp gấp mang lại khả năng dự đoán tốt nhất và áp dụng điều đó cho tập dữ liệu đầy đủ để so sánh AIC với hai mô hình khác (z và x)? Hay nó hoạt động như thế nào?
Phần thứ hai của câu hỏi của tôi là một câu hỏi cơ bản về tham số hóa quá mức. Tôi có 156 điểm dữ liệu, 52 là 1 còn lại là 0. Tôi có 14 biến giải thích để chọn cho mô hình w, tôi nhận ra rằng tôi không thể bao gồm tất cả do tham số hóa quá mức, tôi đã đọc rằng bạn chỉ nên sử dụng 10% của nhóm biến phụ thuộc với ít quan sát nhất chỉ có 5 cho tôi Tôi đang cố gắng trả lời một câu hỏi trong sinh thái học, liệu có ổn không khi chọn các biến bắt đầu mà tôi nghĩ giải thích sự phụ thuộc tốt nhất chỉ đơn giản dựa trên sinh thái học? Hoặc làm thế nào để tôi chọn các biến giải thích bắt đầu? Không cảm thấy đúng để loại trừ hoàn toàn một số biến.
Vì vậy, tôi thực sự có ba câu hỏi:
- Có thể kiểm tra hiệu năng trên một mô hình được đào tạo trên bộ dữ liệu đầy đủ với xác thực chéo không?
- Nếu không, làm cách nào để chọn mô hình cuối cùng khi thực hiện xác thực chéo?
- Làm cách nào để chọn các biến bắt đầu để tôi muốn tham số hóa quá mức?
Xin lỗi vì những câu hỏi lộn xộn và sự thiếu hiểu biết của tôi. Tôi biết rằng những câu hỏi tương tự đã được hỏi nhưng vẫn cảm thấy một chút bối rối. Đánh giá cao bất kỳ suy nghĩ và đề xuất.