Công thức AIC trong Giới thiệu về Học thống kê


9

Tôi hơi bối rối trước một công thức được trình bày trong cuốn "Giới thiệu về học thống kê" của Hastie. Trong Chương 6, trang 212 (in lần thứ sáu, có sẵn ở đây ), có ghi rằng:

AIC=RSSnσ^2+2dn

Đối với các mô hình tuyến tính có nhiễu Gaussian, là số lượng dự đoán và là ước tính của phương sai lỗi. Tuy nhiên,σdσ^

σ^2=RSS(n2)

Điều này được nêu trong Chương 3, trang 66.

Điều này có nghĩa là:

AIC=(n2)n+2dn

Điều đó không thể đúng. Ai đó có thể chỉ ra những gì tôi đang làm không chính xác?


Trừ khi tôi bỏ lỡ điều gì đó, tôi không nghĩ cuốn sách có thể đúng.
Glen_b -Reinstate Monica

Câu trả lời:


3

Tôi nghĩ rằng bạn đang nhầm lẫn hai tổng bình phương còn lại mà bạn có. Bạn có một RSS để ước tính trong công thức, RSS này theo một nghĩa nào đó độc lập với số lượng tham số, . Đây nên được ước tính sử dụng tất cả các biến số của bạn, tạo cho bạn một đơn vị cơ sở về lỗi . Bạn nên gọi RSS trong công thức cho AIC : , nghĩa là nó tương ứng với mô hình với tham số , ( Có thể có nhiều mô hình với tham số ). Vì vậy, RSS trong công thức được tính cho một mô hình cụ thể, trong khi RSS chop σ 2RSSpiipp σ 2σ^2pσ^2RSSpiippσ^2 dành cho mô hình đầy đủ.

Điều này cũng được ghi chú trong trang trước, trong đó được giới thiệu cho .Cpσ^2Cp

Vì vậy, RSS cho công thức trong AIC không phụ thuộc vào , nó được tính cho một mô hình nhất định. Giới thiệu cho tất cả những điều này chỉ là để có một đơn vị cơ sở cho lỗi, sao cho có sự so sánh "công bằng" giữa số lượng tham số và giảm lỗi. Bạn cần so sánh số lượng tham số với một cái gì đó được chia tỷ lệ wrt độ lớn của lỗi.σ 2pσ^2

Nếu bạn không mở rộng quy mô RSS theo lỗi cơ sở, thì có thể RSS đang giảm nhiều hơn số lượng biến được giới thiệu và do đó bạn trở nên tham lam hơn khi thêm nhiều biến. Nếu bạn chia tỷ lệ thành một đơn vị nào đó, việc so sánh với số lượng tham số không phụ thuộc vào độ lớn của lỗi đường cơ sở.

Đây không phải là cách chung để tính toán AIC, nhưng về cơ bản, nó thực hiện một cái gì đó tương tự như thế này trong trường hợp có thể lấy được các phiên bản đơn giản hơn của công thức.


Bạn có thể cung cấp một số tài liệu tham khảo để tôi có thể đọc thêm về lý do đằng sau việc ước tính phương sai lỗi trong các mô hình này với tổng số các dự đoán khả dụng trái ngược với RSS của một số tập hợp con không? Tôi thấy cách trả lời của bạn trả lời câu hỏi này nhưng tôi không chắc tại sao lại hợp pháp khi làm như vậy ngay từ đầu.
Sue Doh Nimh

@SueDohNimh Những slide này cung cấp một khởi đầu tốt. Lưu ý rằng ước tính tốt nhất cho đang sử dụng mô hình đầy đủ, được giới thiệu cho . AIC mà bạn có, là cái mà được biết đến, nhưng bạn chỉ cần sử dụng ước tính tốt nhất mà bạn có thể nhận được. Ước tính có thể rất khó khăn. Cuộc thảo luận này cũng có liên quan. Điều này cũng có liên quan . σ2Cpσ2σ2
Gumeo

2
Bạn cũng nên đọc bài viết gốc của Akaike, tôi nghĩ đó là nguồn tốt nhất, hiện tại nó có hơn 15 nghìn trích dẫn. Ở đây , bạn sẽ có thể tìm thấy nó ở đâu đó trực tuyến hoặc truy cập nó từ một trường đại học.
Gumeo

5

Thật không may, đây sẽ là một câu trả lời khá không thỏa mãn ...

Trước hết, thông thường cho phép tính AIC, bạn sẽ sử dụng ước tính Khả năng tối đa của sẽ bị sai lệch. Vì vậy, điều đó sẽ giảm xuống và cuối cùng, phép tính bạn thực hiện sẽ giảm xuống . Thứ hai tôi sẽ giới thiệu cho bạn bài viết Wikipedia về AIC nói riêng trong phần các trường hợp tương đương . Như bạn thấy đó rõ ràng là hầu hết các Mục từ bỏ một hằng số . Hằng số này không liên quan cho mục đích so sánh mô hình nên nó bị bỏ qua. Việc thấy các dẫn xuất mâu thuẫn của AIC là điều hơi phổ biến vì chính xác vấn đề đó. Ví dụ: Phân tích thống kê đa biến ứng dụng của Johnson & Wicotta , phiên bản thứ 6 cung cấp cho AIC như sau:σ2σ2=RSSn1+2dnCnlog(RSSN)+2d (Chapt. 7.6), rõ ràng không đánh đồng định nghĩa của James et al. bạn đang sử dụng. Không có cuốn sách nào là sai mỗi se . Chỉ cần mọi người sử dụng các hằng số khác nhau. Trong trường hợp của James et al. cuốn sách có vẻ như họ không ám chỉ điểm này. Trong các cuốn sách khác, vd. Một khóa học đầu tiên về lý thuyết mô hình tuyến tính của Ravishanker và Dey, điều này thậm chí còn sâu sắc hơn khi các tác giả viết:

AIC(p)=2l(y;X,β^ML,σ^ML2)+2p=Nlog(σ^ML2)/2N/2+2p(7.5.10)

Điều thú vị là nó cũng không thể đồng thời đúng. Như Burnham & Anderson (1998) Chapt 2.2 viết: " Trong trường hợp đặc biệt ước lượng bình phương nhỏ nhất (LS) với sai số phân phối bình thường và ngoài hằng số phụ gia tùy ý, AIC có thể được biểu diễn dưới dạng hàm đơn giản của tổng bình phương còn lại . "; B & A đề xuất biến thể AIC tương tự mà J & W sử dụng. Điều khiến bạn băn khoăn là hằng số đặc biệt đó (và thực tế là bạn không sử dụng ước tính ML cho phần dư.) Nhìn vào Nhận dạng mẫu và Học máy của M. Bishop (2006) tôi thấy một định nghĩa thậm chí còn mâu thuẫn hơn như:

AIC=l(D|wML)M(1.73)

Điều này thật buồn cười bởi vì nó không chỉ bỏ qua hệ số nhân từ bài báo gốc mà còn đi trước để làm giảm các dấu hiệu để nó có thể sử dụng lựa chọn dựa trên AIC như một vấn đề tối đa hóa ...

Tôi khuyên bạn nên gắn bó với định nghĩa cũ nếu bạn muốn thực hiện các dẫn xuất lý thuyết. Đây là một trong những trạng thái Akaike trong bài báo gốc của mình. Tất cả các công thức trung gian khác có xu hướng lộn xộn và / hoặc đưa ra một số giả định ngầm định. Nếu đó là bất kỳ sự an ủi nào, bạn "không làm gì sai".2log(L)+2p


Ah! Vâng, đó thực sự là một chút phản trắc nhưng cảm ơn bạn. Tuy nhiên, theo hàm ý, AIC của HYUNDAI vừa tăng tuyến tính theo d và không phải là hàm của tổng số dư bình phương! Các định nghĩa khác mà bạn cung cấp ít nhất khác nhau với các lỗi tập huấn luyện, trong khi AIC của HỌ sẽ ám chỉ rằng mô hình tối ưu sẽ chỉ là một với 0 dự đoán. Có cách nào để kết hôn mà lên?
Sue Doh Nimh

1
Xin lỗi tôi không biết tại sao họ đưa ra công thức đó. Thông thường có một liên quan ở đâu đó. Trong văn bản họ không lao động quanh AIC rất nhiều và họ tập trung vào của Mallow vì vậy tôi sẽ không ngạc nhiên nếu họ đưa ra một số giả định đơn giản hóa. Nói chung, chương đó dường như sử dụng một quy ước hơi kỳ lạ. Kết hôn với nó dường như tương đương với việc giảm logarit ít nhiều. Họ dường như cũng ủng hộ hệ số nhân ; Tôi nghi ngờ điều này được thực hiện để làm cho mọi thứ tương tự như . BTW, đó là cuốn sách của James . Hastie là một học giả tuyệt vời nhưng ông là tác giả thứ 3. C p 1logCp Cp1NCp
usεr11852

Tôi đã đi đến kết luận giống như bạn, khi đọc cuốn sách nổi tiếng "Các yếu tố của học thống kê" (tr.230-233), trong đó các định nghĩa về AIC / BIC rất giống với định nghĩa của chúng được đưa ra trong "Giới thiệu về thống kê học ở R ". Vì vậy, Hastie là học giả tuyệt vời, nhưng anh ấy không giỏi trong việc định nghĩa AIC / BIC =).
Rodvi
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.