AIC và BIC được sử dụng, ví dụ như trong hồi quy từng bước. Chúng thực sự là một phần của một lớp "heuristic" lớn hơn, cũng được sử dụng. Ví dụ, DIC (Tiêu chí thông tin sai lệch) thường được sử dụng trong lựa chọn Mô hình Bayes.
Tuy nhiên, về cơ bản chúng là "heuristic". Mặc dù có thể chỉ ra rằng, cả AIC và BIC đều hội tụ một cách không có triệu chứng đối với các phương pháp xác thực chéo (tôi nghĩ AIC hướng tới CV rời rạc và BIC đối với một số phương pháp khác, nhưng tôi không chắc chắn) dưới mức phạt và phạt quá mức tương ứng. Tức là sử dụng AIC, bạn sẽ thường nhận được một mô hình, phức tạp hơn mức cần thiết, trong khi với BIC, bạn thường nhận được một mô hình quá đơn giản.
Vì cả hai đều liên quan đến CV, CV thường là lựa chọn tốt hơn, không gặp phải những vấn đề này.
Cuối cùng, có vấn đề về # các tham số cần thiết cho BIC và AIC. Với các xấp xỉ hàm tổng quát (ví dụ KNN) trên các đầu vào có giá trị thực, có thể "ẩn" các tham số, nghĩa là xây dựng một số thực chứa thông tin giống như hai số thực (ví dụ: giao nhau giữa các chữ số). Trong trường hợp đó, số lượng tham số thực tế là bao nhiêu? Mặt khác, với các mô hình phức tạp hơn, bạn có thể có các ràng buộc đối với các tham số của mình, giả sử bạn chỉ có thể điều chỉnh các tham số sao cho (xem ví dụ tại đây ). Hoặc bạn có thể không nhận dạng được, trong trường hợp đó, nhiều giá trị của các tham số thực sự cho cùng một mô hình. Trong tất cả các trường hợp này, chỉ đơn giản là đếm các tham số không đưa ra ước tính phù hợp.θ1> θ2
Do nhiều thuật toán học máy hiện đại cho thấy các tính chất này (tức là xấp xỉ phổ quát, số lượng tham số không rõ ràng, không thể nhận dạng), AIC và BIC ít hữu ích hơn cho mô hình này, so với cái nhìn đầu tiên.
CHỈNH SỬA :
Một số điểm có thể được làm rõ:
- Có vẻ như tôi đã sai khi xem xét ánh xạ bằng cách xen kẽ các chữ số là một sự lựa chọn giữa (xem tại đây ). Tuy nhiên, các chi tiết về lý do tại sao điều này không phải là một điều khó hiểu là một chút khó hiểu. Tuy nhiên, chúng tôi thực sự không cần một sự lựa chọn cho ý tưởng này để hoạt động (một sự từ chối là đủ).R → RN
- Theo bằng chứng của Cantor (năm 1877) thì phải có một song ánh giữa . Mặc dù sự lựa chọn này không thể được định nghĩa rõ ràng, sự tồn tại của nó có thể được chứng minh (nhưng điều này đòi hỏi tiên đề chưa được chứng minh). Sự lựa chọn này vẫn có thể được sử dụng trong một mô hình lý thuyết (có thể không thực sự thực hiện mô hình này trong máy tính), để giải nén một tham số duy nhất thành một số tham số tùy ý.R → RN
- Chúng tôi thực sự không cần ánh xạ giữa để trở thành một mệnh đề. Bất kỳ hàm tính toán nào là đủ để giải nén nhiều tham số từ một tham số. Các dự đoán như vậy có thể được hiển thị là tồn tại dưới dạng giới hạn đối với một chuỗi các chức năng khác (còn gọi là các đường cong lấp đầy không gian , ví dụ: đường cong Peano ).R → RNR → RN
- Bởi vì không phải bằng chứng của Cantor là mang tính xây dựng (nó chỉ đơn giản chứng minh sự tồn tại của mệnh đề mà không đưa ra ví dụ), cũng không phải là các đường cong lấp đầy không gian (vì chúng chỉ tồn tại dưới dạng giới hạn của các đối tượng xây dựng và do đó không phải là xây dựng), nên lập luận I thực hiện chỉ là một bằng chứng lý thuyết. Về lý thuyết, chúng ta chỉ có thể tiếp tục thêm các tham số vào một mô hình để giảm BIC dưới bất kỳ giá trị mong muốn nào (trên tập huấn luyện). Tuy nhiên, trong quá trình triển khai mô hình thực tế, chúng ta phải ước tính đường cong lấp đầy không gian, do đó lỗi xấp xỉ có thể cấm chúng ta thực sự làm như vậy (tôi chưa thực sự kiểm tra điều này).
- Bởi vì tất cả điều này đòi hỏi tiên đề của sự lựa chọn, bằng chứng trở nên không hợp lệ nếu bạn không chấp nhận tiên đề này (mặc dù hầu hết các nhà toán học đều làm như vậy). Điều đó có nghĩa là, trong toán học xây dựng, điều này có thể không thể thực hiện được, nhưng tôi không biết toán học mang tính xây dựng đóng vai trò gì cho thống kê.
- Nhận dạng về bản chất được liên kết với sự phức tạp chức năng. Nếu người ta chỉ cần lấy một mô hình tham số nhận dạng và thêm một tham số thừa (ví dụ: không được sử dụng ở bất cứ đâu), thì mô hình mới sẽ không thể nhận dạng được. Về cơ bản, người ta đang sử dụng một mô hình có sự phức tạp của để giải quyết một vấn đề mà có độ phức tạp . Tương tự, với các hình thức không nhận dạng khác. Lấy ví dụ về trường hợp hoán vị tham số không xác định được. Trong trường hợp đó, người ta đang sử dụng một mô hình có độ phức tạp của , tuy nhiên, vấn đề thực tế chỉ có độ phức tạp của một tập hợp các lớp tương đương so vớiNRN+ 1RNRNRN. Tuy nhiên, đây chỉ là một cuộc tranh luận không chính thức, tôi không biết về bất kỳ sự đối xử chính thức nào về khái niệm "phức tạp" này.