Giải thích giá trị AIC


9

Các giá trị tiêu biểu của AIC mà tôi đã thấy cho các mô hình logistic là hàng ngàn, ít nhất là hàng trăm. ví dụ: Trên http://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/ AIC là 727,39

Mặc dù người ta luôn nói rằng AIC chỉ nên được sử dụng để so sánh các mô hình, tôi muốn hiểu giá trị AIC cụ thể có nghĩa là gì. Theo công thức, AIC=2log(L)+2K

Trong đó, L = khả năng tối đa từ công cụ ước tính MLE, K là số lượng tham số

Trong ví dụ trên, K = 8

vì vậy, với tính toán đơn giản:

727.9 = -2*log(L)+ 2*8
Hence, 711.39 = -2*log(L)
Hence, log (L)= 711.39/-2 = -355.695
Hence, L = exp(-355.695) = 3.3391E-155

Vì vậy, nếu sự hiểu biết của tôi là chính xác, thì đây là khả năng của hàm được xác định bởi MLE phù hợp với dữ liệu. Điều này dường như thực sự thực sự thực sự thấp.

Tôi đang thiếu gì ở đây?


Nếu chúng ta xem nó dưới dạng
pmf(observed data;parameter estimates)
Bjorn

Xin lỗi, đã bị cắt, nếu chúng ta nhìn theo cách đó, thì điều này cho thấy rằng với số lượng lớn các bản ghi nhận chính xác dữ liệu quan sát không có khả năng cho các ước tính tham số.
Bjorn

Câu trả lời:


9

Không có thứ gọi là "điển hình" hay khả năng chính xác cho một mô hình. Tương tự với AIC , đó là khả năng nhật ký âm bị phạt đối với một số tham số. Giá trị thấp hơn của AIC cho thấy mô hình "tốt hơn", nhưng đó là thước đo tương đối của sự phù hợp với mô hình. Nó được sử dụng để lựa chọn mô hình, tức là nó cho phép bạn so sánh các mô hình khác nhau được ước tính trên cùng một tập dữ liệu.

Nhớ lại GEP Box nói rằng "tất cả các mô hình đều sai, nhưng một số mô hình là hữu ích", bạn không quan tâm đến việc tìm kiếm mô hình phù hợp hoàn hảo với dữ liệu của mình vì không thể và mô hình như vậy trong nhiều trường hợp sẽ rất kém, quá mức . Thay vào đó, bạn đang tìm kiếm thứ tốt nhất mà bạn có thể có, thứ hữu ích nhất. Ý tưởng chung đằng sau AIC là mô hình có số lượng tham số thấp hơn sẽ tốt hơn, bằng cách nào đó phù hợp với đối số dao cạo của Occam , rằng chúng tôi thích mô hình đơn giản hơn mô hình phức tạp.

Bạn có thể kiểm tra các giấy tờ sau:

Anderson, D., & Burnham, K. (2006). AIC huyền thoại và hiểu lầm.

Burnham, KP, & Anderson, DR (2004). Suy luận đa phương thức. Hiểu AIC và BIC trong lựa chọn mô hình. Phương pháp & nghiên cứu xã hội học, 33 (2), 261-304.

và những chủ đề:

Sự khác biệt giữa "khả năng" và "xác suất" là gì?

Có bất kỳ lý do để thích AIC hoặc BIC hơn so với khác?



3

AIC liên quan nhiều đến khái quát ("giả") . Tôi muốn nêu AIC theo tỷ lệ khả năng mặc dù điều này không phải là truyền thống, tức là, AIC đã lặp lại = df Một trong các biện pháp tổng quát là . Mặc dù chúng ta vẫn không biết chính xác phải lớn đến mức nào để mô hình được coi là có tính phân biệt cao, ít nhất là không có đơn vị.χ 2 χ 2 - 2 × R 2 1 - exp ( - χ 2 / n ) R 2 R 2R2χ2χ22×R21exp(χ2/n)R2R2


1

Điều này dường như thực sự thực sự thực sự thấp. Tôi đang thiếu gì ở đây?

Các đại lượng như AIC, liên quan đến việc sử dụng khả năng đăng nhập, chỉ có ý nghĩa so với các đại lượng khác . Hãy nhớ rằng hàm khả năng chỉ được xác định tối đa hằng số tỷ lệ, do đó, nó có thể được thu nhỏ lên hoặc xuống tùy ý. Do đó, khả năng đăng nhập chỉ được xác định theo hằng số vị trí và nó có thể được thay đổi lên hoặc xuống theo ý muốn. Điều này cũng đúng với AIC, vì số lượng này chỉ là khả năng đăng nhập, được thay đổi bởi một hình phạt về số lượng tham số. Đó là lý do mà người ta nói rằng AIC chỉ nên được sử dụng để so sánh các mô hình.

Trong thói quen máy tính, chức năng khả năng thường được xác định trực tiếp từ mật độ lấy mẫu mà không loại bỏ các hằng số không cần thiết, vì vậy trong trường hợp này, vấn đề mở rộng có thể không phải là một yếu tố. Trong bài đăng R Bloggers mà bạn liên kết đến, có dữ liệu được sử dụng trong hồi quy logistic. Khả năng đăng nhập từ các số bạn đưa ra là:n=800

^=(727.92×8)/(2)=355.95.

Do đó, khả năng ghi nhật ký trung bình trên mỗi điểm dữ liệu là , tương ứng với giá trị khả năng là cho một điểm dữ liệu. Điều này không phải là đặc biệt thấp, và không phải là nguyên nhân cho bất kỳ báo động.^/n=0.44493750.6408643


0

Bạn đã chỉ ra một cách chính xác rằng nếu bạn tính toán lại khả năng, sử dụng AIC được báo cáo bởi R, bạn sẽ có khả năng thấp đến mức nực cười. Lý do là giá trị của AIC được báo cáo bởi R (gọi nó là AICrep) không phải là AIC thực sự (AICtrue). AICrep và AICtrue khác nhau bởi một hằng số phụ thuộc vào dữ liệu đo được nhưng độc lập với mô hình được chọn. Do đó, khả năng được tính lại từ AICrep sẽ không chính xác. Đó là sự khác biệt trong AIC, khi các mô hình khác nhau được sử dụng để phù hợp với cùng một dữ liệu, rất hữu ích trong việc chọn mô hình tốt nhất.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.