Một tiêu chí thông tin xem xét có bao nhiêu biến chúng ta có thể chọn từ


7

Tôi đang chạy một mô hình hồi quy bội và đang tìm cách sử dụng AIC và BIC để chọn các mô hình. Tuy nhiên tôi lưu ý rằng cả hai biện pháp không xem xét số lượng biến chúng ta có thể chọn mà chỉ xem xét số lượng biến được chọn. Nếu tôi có nhiều biến để lựa chọn, rất có thể tôi sẽ tìm thấy thứ gì đó tương quan cao với những gì tôi đang cố gắng mô hình hóa, chỉ là do may mắn. Có một biện pháp xem xét có bao nhiêu biến chúng ta có thể chọn từ?

Câu trả lời:


6

Tôi nghĩ xác nhận chéo đơn giản là phù hợp nhất.

Cả AIC và BIC đều xem xét sự cân bằng giữa độ phức tạp của mô hình và lượng thông tin có sẵn. Với nhiều dữ liệu hơn, các mô hình phức tạp hơn có thể được học. Tuy nhiên, số dư này là cố định và không dựa trên dữ liệu.

Xác nhận chéo được dựa trên dữ liệu. Nó cũng cân bằng độ phức tạp của mô hình với lượng thông tin có sẵn. Với nhiều dữ liệu hơn, các mô hình phức tạp hơn có thể được học. Hiệu suất trên dữ liệu không nhìn thấy định lượng mô hình hoạt động tốt như thế nào. Ngẫu nhiên, các mô hình phức tạp (quá mức) bị phạt vì chúng đưa ra dự đoán xấu.

Trong trường hợp có nhiều biến, những biến tương quan cao có thể được chọn trong quá trình đào tạo. Tuy nhiên, trong quá trình thử nghiệm, rõ ràng là các mối quan hệ đã học không khái quát hóa thành dữ liệu không nhìn thấy.

Một ưu điểm khác của xác nhận chéo là bạn có thể chọn phép đo hiệu suất của riêng mình.


2
(+1) Nhưng điều quan trọng cần nhấn mạnh là nếu xác thực chéo được sử dụng để lựa chọn mô hình, thì cần có một vòng lặp bên ngoài để đánh giá một cách công bằng hiệu suất dự đoán. Xem Đào tạo với bộ dữ liệu đầy đủ sau khi xác thực chéo? , Lựa chọn tính năng và xác thực chéo & xác thực chéo lồng nhau để lựa chọn mô hình .
Scortchi - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.