Bạn không thể so sánh hai mô hình vì chúng không mô hình cùng một biến (như bạn nhận ra chính xác mình). Tuy nhiên, AIC nên hoạt động khi so sánh cả hai mô hình lồng nhau và không được kiểm tra.
Chỉ cần một lời nhắc nhở trước khi chúng tôi tiếp tục: khả năng đăng nhập Gaussian được đưa ra bởi
đăng nhập( L ( θ ) ) = - | D |2đăng nhập( 2 π) - 12đăng nhập( | K| )- 12( X - μ )TK- 1( X - μ ) ,
K là cấu trúc hiệp phương sai của mô hình của bạn,số điểm trong tập hợp dữ liệu của bạn, phản ứng trung bình và biến phụ thuộc của bạn.μ x| D |μx
Cụ thể hơn AIC được tính bằng , trong đó là số hiệu ứng cố định trong mô hình của bạn và hàm khả năng của bạn [1]. Nó thực tế so sánh sự đánh đổi giữa phương sai ( ) và sai lệch ( ) trong các giả định mô hình hóa của bạn. Như vậy trong trường hợp của bạn, nó sẽ so sánh hai cấu trúc khả năng đăng nhập khác nhau khi nói đến thuật ngữ thiên vị. Đó là bởi vì khi bạn tính toán khả năng đăng nhập của mình, bạn nhìn vào hai thuật ngữ: một thuật ngữ phù hợp, được ký hiệu là và thời hạn xử phạt phức tạp, ký hiệu làk L 2 k 2 log ( L ) - 12 k - 2 khúc gỗ( L )kL2 k2 khúc gỗ( L )-1- 12( X - μ )TK- 1( X - μ )- 12đăng nhập( | K| ). Do đó, bạn thấy rằng thuật ngữ phù hợp của bạn là hoàn toàn khác nhau giữa hai mô hình; trong trường hợp đầu tiên, bạn so sánh phần dư từ dữ liệu thô và trong trường hợp khác là phần dư của dữ liệu đã ghi.
Ngoài Wikipedia, AIC cũng được định nghĩa để đánh đồng: [3]; hình thức này làm cho nó rõ ràng hơn nữa tại sao các mô hình khác nhau với biến phụ thuộc khác nhau không thể so sánh được. RSS là hai trường hợp không thể so sánh giữa hai.| D | đăng nhập( R SS| D |) +2k
Bài báo gốc của Akaike [4] thực sự khá khó nắm bắt (tôi nghĩ vậy). Nó dựa trên phân kỳ KL (sự khác biệt giữa hai phân phối đại khái) và hoạt động theo cách chứng minh làm thế nào bạn có thể xấp xỉ phân phối dữ liệu thực sự chưa biết và so sánh với phân phối dữ liệu mà mô hình của bạn giả định. Đó là lý do "điểm AIC nhỏ hơn là tốt hơn" ; bạn gần với phân phối dữ liệu thực sự gần đúng của bạn.
Vì vậy, để kết hợp tất cả lại với nhau, những điều rõ ràng cần nhớ khi sử dụng AIC là ba [2,5]:
Bạn không thể sử dụng nó để so sánh các mô hình của các tập dữ liệu khác nhau.
Bạn nên sử dụng các biến trả lời giống nhau cho tất cả các mô hình ứng cử viên.
Bạn nên có , bởi vì nếu không bạn không có được sự thống nhất tiệm cận tốt.| D | > > K
Xin lỗi để phá vỡ tin xấu cho bạn nhưng sử dụng AIC để cho thấy bạn đang chọn một biến phụ thuộc so với biến khác không phải là một điều thống kê để làm. Kiểm tra phân phối phần dư của bạn trong cả hai mô hình, nếu trường hợp dữ liệu được ghi có phần dư phân phối bình thường và trường hợp dữ liệu thô không, bạn có tất cả các biện minh bạn có thể cần. Bạn cũng có thể muốn kiểm tra xem dữ liệu thô của bạn có tương ứng với logic hay không, điều đó cũng có thể đủ để biện minh.
Đối với các giả định toán học nghiêm ngặt, trò chơi là phân kỳ KL và lý thuyết thông tin ...
À, và một số tài liệu tham khảo:
- http://en.wikipedia.org/wiki/Akaike_inif_criterion
- Tiêu chí thông tin Akaike, Shuhua Hu, (Trình bày trang 17-18)
- Phân tích thống kê đa biến ứng dụng, Johnson & Wicotta, 4th Ed. (trang 386-387)
- Một cái nhìn mới về nhận dạng mô hình thống kê, H. Akaike, Giao dịch của IEEE về Điều khiển tự động 19 (6): 716 Từ723 (1974)
- Hướng dẫn lựa chọn mô hình # 1: Tiêu chí thông tin của Akaike, D. Schmidt và E. Makalic, (Trình bày trang 39)