Điều kiện tiên quyết để so sánh mô hình AIC


26

Chính xác các điều kiện tiên quyết, cần phải được thực hiện để so sánh mô hình AIC là gì?

Tôi chỉ đi xung quanh câu hỏi này khi tôi đã so sánh như thế này:

> uu0 = lm(log(usili) ~ rok)
> uu1 = lm(usili ~ rok)
> AIC(uu0)
[1] 3192.14
> AIC(uu1)
[1] 14277.29

Bằng cách này, tôi biện minh cho sự logbiến đổi của biến usili. Nhưng tôi không biết liệu tôi có thể so sánh các mô hình AIC không, ví dụ như biến phụ thuộc có khác không?

Câu trả lời lý tưởng sẽ bao gồm danh sách các điều kiện tiên quyết (giả định toán học).

Câu trả lời:


29

Bạn không thể so sánh hai mô hình vì chúng không mô hình cùng một biến (như bạn nhận ra chính xác mình). Tuy nhiên, AIC nên hoạt động khi so sánh cả hai mô hình lồng nhau và không được kiểm tra.

Chỉ cần một lời nhắc nhở trước khi chúng tôi tiếp tục: khả năng đăng nhập Gaussian được đưa ra bởi

đăng nhập(L(θ))= =-|D|2đăng nhập(2π)-12đăng nhập(|K|)-12(x-μ)TK-1(x-μ),

K là cấu trúc hiệp phương sai của mô hình của bạn,số điểm trong tập hợp dữ liệu của bạn, phản ứng trung bình và biến phụ thuộc của bạn.μ x|D|μx

Cụ thể hơn AIC được tính bằng , trong đó là số hiệu ứng cố định trong mô hình của bạn và hàm khả năng của bạn [1]. Nó thực tế so sánh sự đánh đổi giữa phương sai ( ) và sai lệch ( ) trong các giả định mô hình hóa của bạn. Như vậy trong trường hợp của bạn, nó sẽ so sánh hai cấu trúc khả năng đăng nhập khác nhau khi nói đến thuật ngữ thiên vị. Đó là bởi vì khi bạn tính toán khả năng đăng nhập của mình, bạn nhìn vào hai thuật ngữ: một thuật ngữ phù hợp, được ký hiệu là và thời hạn xử phạt phức tạp, ký hiệu làk L 2 k 2 log ( L ) - 12k-2đăng nhập(L)kL2k2đăng nhập(L)-1-12(x-μ)TK-1(x-μ)-12đăng nhập(|K|). Do đó, bạn thấy rằng thuật ngữ phù hợp của bạn là hoàn toàn khác nhau giữa hai mô hình; trong trường hợp đầu tiên, bạn so sánh phần dư từ dữ liệu thô và trong trường hợp khác là phần dư của dữ liệu đã ghi.

Ngoài Wikipedia, AIC cũng được định nghĩa để đánh đồng: [3]; hình thức này làm cho nó rõ ràng hơn nữa tại sao các mô hình khác nhau với biến phụ thuộc khác nhau không thể so sánh được. RSS là hai trường hợp không thể so sánh giữa hai.|D|đăng nhập(RSS|D|)+2k

Bài báo gốc của Akaike [4] thực sự khá khó nắm bắt (tôi nghĩ vậy). Nó dựa trên phân kỳ KL (sự khác biệt giữa hai phân phối đại khái) và hoạt động theo cách chứng minh làm thế nào bạn có thể xấp xỉ phân phối dữ liệu thực sự chưa biết và so sánh với phân phối dữ liệu mà mô hình của bạn giả định. Đó là lý do "điểm AIC nhỏ hơn là tốt hơn" ; bạn gần với phân phối dữ liệu thực sự gần đúng của bạn.

Vì vậy, để kết hợp tất cả lại với nhau, những điều rõ ràng cần nhớ khi sử dụng AIC là ba [2,5]:

  1. Bạn không thể sử dụng nó để so sánh các mô hình của các tập dữ liệu khác nhau.

  2. Bạn nên sử dụng các biến trả lời giống nhau cho tất cả các mô hình ứng cử viên.

  3. Bạn nên có , bởi vì nếu không bạn không có được sự thống nhất tiệm cận tốt.|D|>>k

Xin lỗi để phá vỡ tin xấu cho bạn nhưng sử dụng AIC để cho thấy bạn đang chọn một biến phụ thuộc so với biến khác không phải là một điều thống kê để làm. Kiểm tra phân phối phần dư của bạn trong cả hai mô hình, nếu trường hợp dữ liệu được ghi có phần dư phân phối bình thường và trường hợp dữ liệu thô không, bạn có tất cả các biện minh bạn có thể cần. Bạn cũng có thể muốn kiểm tra xem dữ liệu thô của bạn có tương ứng với logic hay không, điều đó cũng có thể đủ để biện minh.

Đối với các giả định toán học nghiêm ngặt, trò chơi là phân kỳ KL và lý thuyết thông tin ...

À, và một số tài liệu tham khảo:

  1. http://en.wikipedia.org/wiki/Akaike_inif_criterion
  2. Tiêu chí thông tin Akaike, Shuhua Hu, (Trình bày trang 17-18)
  3. Phân tích thống kê đa biến ứng dụng, Johnson & Wicotta, 4th Ed. (trang 386-387)
  4. Một cái nhìn mới về nhận dạng mô hình thống kê, H. Akaike, Giao dịch của IEEE về Điều khiển tự động 19 (6): 716 Từ723 (1974)
  5. Hướng dẫn lựa chọn mô hình # 1: Tiêu chí thông tin của Akaike, D. Schmidt và E. Makalic, (Trình bày trang 39)

cảm ơn! Tôi không hiểu toán nhưng tôi hiểu cốt lõi của thông điệp. Tuy nhiên, bạn có thể vui lòng liệt kê tất cả các điều kiện tiên quyết cần thiết để so sánh mô hình AIC không? Chỉ để chắc chắn rằng tôi sẽ không phạm sai lầm lần sau. Tôi sẽ đi và kiểm tra từng cái một.
Tò mò

1
Tôi sợ rằng tôi không có một "danh sách kiểm tra" như vậy. Tham chiếu [2] có một danh sách khá toàn diện nếu bạn quan tâm mặc dù. Những điều chính cần nhớ là: 1. bởi vì AIC là một tiêu chí lựa chọn mô hình hiệu quả không có triệu chứng mà bạn cầnlớn hơn đáng kể so với và 2. bạn chỉ có thể sử dụng nó để so sánh các mô hình của cùng một dữ liệu phụ thuộc. Về mặt toán học, bạn muốn có thể phân biệt hai lần, mọi mô hình ứng cử viên sẽ được ánh xạ một duy nhất và ước tính ML của bạn là nhất quán, nhưng tôi nghĩ những giả định này là quá mức cần thiết để hiển thị một tờ giấy ...p L ( θ ) θ p ( x | θ )|D|pL(θ)θp(x|θ)
usεr11852 nói Phục hồi Monic

1
cảm ơn bạn đã thêm danh sách 3 giả định đó vào câu trả lời! Đó là những gì tôi cần.
Tò mò

1
Nhìn lại câu trả lời của bạn: quan điểm của bạn 1. "Bạn không thể sử dụng nó để so sánh các mô hình của các tập dữ liệu khác nhau" . Ý của bạn là "tập dữ liệu"? Nếu tôi thay đổi tập hợp các biến phụ thuộc thì sao? Tôi đoán rằng trong trường hợp đó AIC vẫn nên so sánh? Bạn có thể vui lòng cập nhật câu trả lời của bạn để làm rõ điều này?
Tò mò

1
(Xin lỗi vì đã trả lời rất muộn!) Tôi nghĩ rằng bạn muốn nói các biến độc lập ... Nếu bạn thay đổi biến phụ thuộc, bạn sẽ làm rối tung của mình một lần nữa vì "mô hình phù hợp" (nói đại khái, ) không phải là so với cùng . (Hãy dành thời gian trả lời @Cantly, tôi sẽ không mong đợi bất cứ điều gì trước giữa tháng 7 !: D)μ xRSSμx
usεr11852 nói Phục hồi Monic

11

Về nguyên tắc, bạn có thể so sánh sử dụng AIC, chỉ là số gọi là "AIC" không phải là số bạn cần. Bạn đang so sánh phân phối bình thường và log-bình thường. Bây giờ AIC từ mô hình uu0về cơ bản chỉ thiếu "jacobian" của chuyển đổi nhật ký. Đối với mô hình nhật ký thông thường, đây chỉ đơn giản là . Để chuyển đổi nó thành AIC, bạn cần lấy hai lần ghi âm của thuật ngữ này, điều đó có nghĩa là bạn cần thêm vào số AIC cho . Vì vậy, bạn nên được so sánh vớiΠtôiytôi-12Σtôiđăng nhập(ytôi)uu0AIC (uu0)+2*sum (log (usili))AIC (uu1)


Tôi không hiểu những gì bạn làm theo với nỗ lực "sửa" AIC bằng cách nào đó và bạn thực sự đã nhận được gì từ nó (cách diễn giải kết quả của bạn). Dù sao, đừng đào sâu vào vấn đề này, điều đó không thành vấn đề bởi vì câu hỏi của tôi là về một điều hoàn toàn khác: các điều kiện tiên quyết chung để AIC (thực tế, không bị phát hiện) có thể so sánh một cách hợp lý. Đừng tập trung vào ví dụ cụ thể này, nó chỉ là một ví dụ về điều chung.
Tò mò

1
-2đăng nhập(p(y|θ))x= =g(y)x= =tôiog(y)AIC()
xác suất

@probabilityislogic: Bạn có tài liệu tham khảo học thuật nào cho đề xuất của mình (AIC (uu0) + 2 * sum (log (usili))) để tôi có thể trích dẫn chúng trong các bài viết học thuật không? Cảm ơn.
KuJ

3

Lấy từ Akaike 1978

Đoạn trích từ Akaike 1978 cung cấp một trích dẫn hỗ trợ cho giải pháp của @probabilityislogic.

Akaike, H. 1978. Về khả năng của mô hình chuỗi thời gian. Tạp chí của Hiệp hội Thống kê Hoàng gia. Sê-ri D (Thống kê) 27: 217-235.


1
xin lỗi tôi không hiểu, "biến đổi của một biến" là gì và nó liên quan đến câu hỏi của tôi như thế nào. Xin giải thích, cảm ơn
Tò mò
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.