Có bất kỳ lý do để thích AIC hoặc BIC hơn so với khác?


222

AIC và BIC đều là các phương pháp đánh giá mô hình phù hợp bị phạt vì số lượng tham số ước tính. Theo tôi hiểu, BIC phạt các mô hình nhiều hơn cho các tham số miễn phí so với AIC. Ngoài một ưu tiên dựa trên tính nghiêm ngặt của các tiêu chí, còn có lý do nào khác để thích AIC hơn BIC hay ngược lại không?


1
Tôi nghĩ sẽ phù hợp hơn khi gọi cuộc thảo luận này là lựa chọn "tính năng" hoặc lựa chọn "đồng biến". Đối với tôi, lựa chọn mô hình rộng hơn nhiều liên quan đến đặc điểm kỹ thuật phân phối lỗi, hình thức của hàm liên kết và hình thức hiệp phương sai. Khi chúng ta nói về AIC / BIC, chúng ta thường ở trong tình huống tất cả các khía cạnh của việc xây dựng mô hình được cố định, ngoại trừ việc lựa chọn các hiệp phương sai.

6
Việc quyết định các hiệp phương thức cụ thể để đưa vào một mô hình thường đi theo lựa chọn mô hình thuật ngữ và có một số sách có lựa chọn mô hình trong tiêu đề chủ yếu quyết định mô hình / tham số mô hình nào sẽ bao gồm trong mô hình.
Michael Chernick

Tôi không biết câu hỏi của bạn có áp dụng cụ thể cho phylogeny (tin sinh học) không, nhưng nếu vậy, nghiên cứu này có thể cung cấp một số suy nghĩ về khía cạnh này: ncbi.nlm.nih.gov/pmc/articles/PMC2925852
tlorin

Câu hỏi được hợp nhất cũng hỏi về KIC , vui lòng cập nhật văn bản câu hỏi và nêu định nghĩa về KIC, pref với liên kết.
smci

1
@smci Tôi đã thêm stats.stackexchange.com/questions/383923/ cho phép mọi người đào sâu vào các câu hỏi liên quan đến KIC nếu quan tâm.
russellpierce

Câu trả lời:


179

Câu hỏi của bạn ngụ ý rằng AIC và BIC cố gắng trả lời cùng một câu hỏi, điều này không đúng. AIC cố gắng chọn mô hình mô tả đầy đủ nhất một thực tế không xác định, chiều cao. Điều này có nghĩa là thực tế không bao giờ nằm ​​trong tập hợp các mô hình ứng cử viên đang được xem xét. Ngược lại, BIC cố gắng tìm mô hình TRUE trong số các ứng cử viên. Tôi thấy khá kỳ lạ khi giả định rằng thực tế được khởi tạo trong một trong những mô hình mà các nhà nghiên cứu xây dựng trên đường đi. Đây là một vấn đề thực sự cho BIC.

Tuy nhiên, có rất nhiều nhà nghiên cứu nói rằng BIC tốt hơn AIC, sử dụng mô phỏng phục hồi mô hình làm đối số. Các mô phỏng này bao gồm tạo dữ liệu từ các mô hình A và B, sau đó khớp cả hai bộ dữ liệu với hai mô hình. Quá mức xảy ra khi mô hình sai phù hợp với dữ liệu tốt hơn so với việc tạo. Điểm chính của những mô phỏng này là để xem AIC và BIC chỉnh sửa những bộ trang phục này tốt đến mức nào. Thông thường, kết quả chỉ ra thực tế rằng AIC quá tự do và vẫn thường thích một mô hình sai, phức tạp hơn so với một mô hình thực sự đơn giản hơn. Thoạt nhìn những mô phỏng này có vẻ là những lý lẽ thực sự tốt, nhưng vấn đề với chúng là chúng vô nghĩa đối với AIC. Như tôi đã nói trước đây, AIC không xem xét rằng bất kỳ mô hình ứng cử viên nào đang được thử nghiệm là thực sự đúng. Theo AIC, tất cả các mô hình là gần đúng với thực tế, và thực tế không bao giờ nên có chiều hướng thấp. Ít nhất là thấp hơn một số mô hình ứng cử viên.

Đề nghị của tôi là sử dụng cả AIC và BIC. Hầu hết các lần họ sẽ đồng ý về mô hình ưa thích, khi họ không, chỉ báo cáo nó.

Nếu bạn không hài lòng với cả AIC và BIC và có thời gian rảnh để đầu tư, hãy tìm kiếm Độ dài mô tả tối thiểu (MDL), một cách tiếp cận hoàn toàn khác khắc phục những hạn chế của AIC và BIC. Có một số biện pháp xuất phát từ MDL, như khả năng tối đa được chuẩn hóa hoặc xấp xỉ Thông tin Fisher. Vấn đề với MDL là nó đòi hỏi về mặt toán học và / hoặc tính toán chuyên sâu.

Tuy nhiên, nếu bạn muốn sử dụng các giải pháp đơn giản, một cách hay để đánh giá tính linh hoạt của mô hình (đặc biệt là khi số lượng tham số bằng nhau, khiến AIC và BIC trở nên vô dụng) đang thực hiện Parametric Bootstrap, khá dễ thực hiện. Đây là một liên kết đến một bài báo trên đó.

Một số người ở đây ủng hộ việc sử dụng xác nhận chéo. Cá nhân tôi đã sử dụng nó và không có bất cứ điều gì chống lại nó, nhưng vấn đề với nó là sự lựa chọn trong số các quy tắc cắt mẫu (bỏ qua một lần, K-Fold, v.v.) là một điều không được chấp nhận.


7
Sự khác biệt có thể được xem xét hoàn toàn từ quan điểm toán học - BIC được coi là sự mở rộng không có triệu chứng của log P (dữ liệu) trong đó các tham số mô hình thực được lấy mẫu theo tùy ý biến mất trước đó, AIC cũng có nguồn gốc tương tự với các tham số thực được giữ cố định
Yaroslav Bulatov

4
Bạn nói rằng "có rất nhiều nhà nghiên cứu nói rằng BIC tốt hơn AIC, sử dụng mô phỏng phục hồi mô hình làm đối số. Những mô phỏng này bao gồm tạo dữ liệu từ các mô hình A và B, sau đó khớp cả hai bộ dữ liệu với hai mô hình." Bạn sẽ thật tử tế khi chỉ ra một số tài liệu tham khảo. Tôi tò mò về họ! :)
deps_stats

2
Tôi không tin những tuyên bố trong bài viết này.
dùng9352

16
(-1) Giải thích tuyệt vời, nhưng tôi muốn thách thức một khẳng định. @Dave Kellen Bạn có thể vui lòng cung cấp một tham chiếu đến nơi mà ý tưởng rằng mô hình TRUE phải có trong bộ cho BIC không? Tôi muốn điều tra về điều này, vì trong cuốn sách này, các tác giả đưa ra một bằng chứng thuyết phục rằng đây không phải là trường hợp.
gui11aume

2
Câu trả lời tuyệt vời nhưng tôi hoàn toàn không đồng ý với tuyên bố "thực tế không bao giờ nên có chiều hướng thấp". Điều này phụ thuộc vào "khoa học" mà bạn đang áp dụng mô hình yoru vào
David

76

Mặc dù AIC và BIC đều là ước tính Khả năng tối đa được định hướng và xử phạt các tham số miễn phí trong nỗ lực chống lại tình trạng thừa, nhưng họ làm như vậy theo cách dẫn đến hành vi khác nhau đáng kể. Hãy xem xét một phiên bản thường được trình bày của các phương thức (dạng kết quả quy định các lỗi phân phối thông thường và các giả định ứng xử tốt khác):

  • AIC = -2 * ln (khả năng) + 2 * k,

  • BIC = -2 * ln (khả năng) + ln (N) * k,

Ở đâu:

  • k = mức độ tự do của mô hình
  • N = số lượng quan sát

Mô hình tốt nhất trong nhóm được so sánh là mô hình giảm thiểu các điểm số này, trong cả hai trường hợp. Rõ ràng, AIC không phụ thuộc trực tiếp vào kích thước mẫu. Hơn nữa, nói chung, AIC thể hiện sự nguy hiểm mà nó có thể vượt quá, trong khi BIC thể hiện sự nguy hiểm mà nó có thể gây ra, chỉ đơn giản là về cách họ xử phạt các tham số miễn phí (2 * k trong AIC; ln (N) * k trong BIC). Thông thường, khi dữ liệu được giới thiệu và điểm số được tính toán lại, BIC tương đối thấp (7 trở xuống) có khả năng chịu đựng các tham số tự do hơn AIC, nhưng dung sai thấp hơn ở N cao hơn (vì log tự nhiên của N vượt qua 2).

Ngoài ra, AIC nhằm mục đích tìm ra mô hình gần đúng nhất cho quy trình tạo dữ liệu chưa biết (thông qua giảm thiểu phân kỳ ước tính KL dự kiến ). Như vậy, nó không hội tụ xác suất theo mô hình thực (giả sử một người có mặt trong nhóm được đánh giá), trong khi BIC không hội tụ khi N có xu hướng vô cùng.

Vì vậy, như trong nhiều câu hỏi về phương pháp, được ưu tiên phụ thuộc vào những gì bạn đang cố gắng thực hiện, phương pháp nào khác có sẵn và liệu có bất kỳ tính năng nào được nêu hay không (hội tụ, dung sai tương đối cho các tham số miễn phí, giảm thiểu phân kỳ KL dự kiến ), nói với mục tiêu của bạn.


8
câu trả lời tốt đẹp Một cách khác có thể có đối với AIC và BIC là AIC nói rằng "hiệu ứng giả" không trở nên dễ dàng phát hiện hơn khi kích thước mẫu tăng (hoặc chúng tôi không quan tâm nếu các hiệu ứng giả xâm nhập vào mô hình), BIC nói rằng họ làm như vậy. Có thể thấy từ phối cảnh OLS như trong bài báo năm 1994 của Raftery, hiệu ứng trở nên xấp xỉ "đáng kể" (nghĩa là mô hình lớn hơn được ưa thích) trong AIC nếu thống kê t của nó lớn hơn , BIC nếu thống kê t của nó là lớn hơn | t| >|t|>2|t|>log(n)
xác suất

2
Câu trả lời hay, +1. Tôi đặc biệt thích sự cảnh báo về việc liệu mô hình thực sự có thực sự có trong nhóm được đánh giá hay không. Tôi sẽ lập luận rằng "mô hình thực sự" không bao giờ có mặt. (Box & Draper nói rằng "tất cả các mô hình đều sai, nhưng một số mô hình là hữu ích" và Burnham & Anderson gọi đây là "kích thước hiệu ứng thon gọn".) ở mức gần đúng nhất trong số các mô hình mà chúng tôi thực sự xem xét.
Stephan Kolassa

68

Giải thích nhanh của tôi là

  • AIC là tốt nhất để dự đoán vì nó không có triệu chứng tương đương với xác nhận chéo.
  • BIC là tốt nhất để giải thích vì nó cho phép ước tính nhất quán quá trình tạo dữ liệu cơ bản.

AIC tương đương với xác thực chéo K-Fold, BIC tương đương với xác thực chéo một lần. Tuy nhiên, cả hai định lý chỉ giữ trong trường hợp hồi quy tuyến tính.

5
mbq, đó là AIC / LOO (không phải LKO hay K-Fold) và tôi không nghĩ rằng bằng chứng trong Stone 1977 dựa trên các mô hình tuyến tính. Tôi không biết chi tiết về kết quả BIC.
ars

11
ars là chính xác. Đó là AIC = LOO và BIC = K-Fold trong đó K là một hàm phức tạp của cỡ mẫu.
Rob Hyndman

Xin chúc mừng, bạn đã có tôi; Tôi đã vội vàng viết nó và vì vậy tôi đã mắc lỗi này, rõ ràng đó là cách Rob viết nó. Neverthelss là từ Shao 1995, trong đó một giả định rằng mô hình là tuyến tính. Tôi sẽ phân tích Stone, tôi vẫn nghĩ bạn, ars, có thể đúng vì LOO trong lĩnh vực của tôi có tiếng xấu không kém các IC * khác nhau.

Mô tả trên Wikipedia ( en.wikipedia.org/wiki/ ( ) làm cho nó có vẻ như xác thực chéo K-Fold giống như một mô phỏng lặp đi lặp lại để ước tính độ ổn định của các tham số. Tôi có thể thấy lý do tại sao AIC sẽ ổn định với LOO (vì LOO có thể được tiến hành triệt để), nhưng tôi không hiểu tại sao BIC sẽ ổn định với K-Fold trừ khi K cũng hết. Liệu công thức phức tạp nằm dưới giá trị của K làm cho nó toàn diện? Hay là một cái gì đó khác đang xảy ra?
russellpierce

16

Theo kinh nghiệm của tôi, BIC dẫn đến tình trạng thiếu nghiêm trọng và AIC thường hoạt động tốt, khi mục tiêu là tối đa hóa sự phân biệt dự đoán.


1
Siêu chậm trễ, nhưng vì điều này vẫn đang xếp hạng cao trên Google, bạn có phiền khi xây dựng khu vực bạn đang làm việc không? Tôi chỉ tò mò nếu có một số ảnh hưởng của tên miền chúng ta nên xem xét.
Verybadatthis

@verybadatthis: thống kê sinh học lâm sàng (chỉ cần google "Frank Harrell", anh ta có sự hiện diện trên web)
Ben Bolker

13

Một "dẫn xuất" thông tin và có thể truy cập của AIC và BIC của Brian Ripley có thể được tìm thấy ở đây: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

Ripley cung cấp một số nhận xét về các giả định đằng sau kết quả toán học. Trái với những gì một số câu trả lời khác chỉ ra, Ripley nhấn mạnh rằng AIC dựa trên giả định rằng mô hình là đúng. Nếu mô hình không đúng, một tính toán chung sẽ tiết lộ rằng "số lượng tham số" phải được thay thế bằng một đại lượng phức tạp hơn. Một số tài liệu tham khảo được đưa ra trong các slide Riplys. Tuy nhiên, lưu ý rằng đối với hồi quy tuyến tính (nói đúng với phương sai đã biết), nói chung, đại lượng phức tạp hơn đơn giản hóa bằng với số lượng tham số.


3
(+1) Tuy nhiên, Ripley đã sai ở điểm mà anh ta nói rằng các mô hình phải được lồng vào nhau. Không có ràng buộc nào như vậy đối với đạo hàm ban đầu của Akaike, hoặc, rõ ràng hơn, về đạo hàm sử dụng AIC như một công cụ ước tính của phân kỳ Kullback - Leibler. Trên thực tế, trong một bài báo mà tôi đang làm việc, tôi đã cho thấy phần nào "về mặt thực nghiệm" rằng AIC thậm chí có thể được sử dụng để lựa chọn mô hình các cấu trúc hiệp phương sai (số lượng tham số khác nhau, các mô hình không lồng nhau rõ ràng). Từ hàng ngàn mô phỏng chuỗi thời gian mà tôi đã chạy với các cấu trúc hiệp phương sai khác nhau, không ai trong số họ AIC hiểu sai ...
Néstor

... Nếu mô hình "đúng" thực tế nằm trên tập hợp các mô hình (tuy nhiên, điều này cũng ngụ ý rằng đối với các mô hình tôi đang làm việc, phương sai của công cụ ước tính là rất nhỏ ... nhưng đó chỉ là một kỹ thuật chi tiết).
Néstor

1
@ Néstor, tôi đồng ý. Điểm về các mô hình được lồng nhau là lạ.
NRH

3
Khi chọn cấu trúc hiệp phương sai cho dữ liệu theo chiều dọc (mô hình hiệu ứng hỗn hợp hoặc bình phương tối thiểu tổng quát) AIC có thể dễ dàng tìm thấy cấu trúc sai nếu có nhiều hơn 3 cấu trúc ứng cử viên. Nếu có nhiều hơn 3, bạn sẽ phải sử dụng bootstrap hoặc các phương tiện khác để điều chỉnh độ không đảm bảo của mô hình gây ra bằng cách sử dụng AIC để chọn cấu trúc.
Frank Harrell

8

Thật vậy, sự khác biệt duy nhất là BIC được AIC mở rộng để đưa số lượng đối tượng (mẫu) vào tài khoản. Tôi sẽ nói rằng trong khi cả hai đều khá yếu (so với xác nhận chéo chẳng hạn) thì tốt hơn là sử dụng AIC, hơn là nhiều người sẽ quen với chữ viết tắt - thực sự tôi chưa bao giờ thấy một bài báo hay chương trình nào mà BIC sẽ được sử dụng (tôi vẫn thừa nhận rằng tôi thiên vị cho các vấn đề trong đó các tiêu chí như vậy đơn giản là không hoạt động).

Chỉnh sửa: AIC và BIC tương đương với xác thực chéo cung cấp hai giả định quan trọng - khi chúng được xác định, do đó, khi mô hình là khả năng tối đa và khi bạn chỉ quan tâm đến hiệu suất mô hình trên dữ liệu đào tạo. Trong trường hợp thu gọn một số dữ liệu vào một số loại đồng thuận, họ hoàn toàn ổn.
Trong trường hợp tạo ra một máy dự đoán cho một số vấn đề trong thế giới thực, điều đầu tiên là sai, vì tập huấn luyện của bạn chỉ đại diện cho một mẩu thông tin về vấn đề bạn đang giải quyết, vì vậy bạn không thể tối ưu hóa mô hình của mình; thứ hai là sai, bởi vì bạn mong đợi rằng mô hình của bạn sẽ xử lý dữ liệu mới mà bạn thậm chí không thể ngờ rằng tập huấn luyện sẽ là đại diện. Và đến cuối CV này đã được phát minh; để mô phỏng hành vi của mô hình khi đối mặt với dữ liệu độc lập. Trong trường hợp lựa chọn mô hình, CV cung cấp cho bạn không chỉ phân phối gần đúng về chất lượng mà còn phân phối xấp xỉ chất lượng, do đó, có một lợi thế lớn là nó có thể nói "Tôi không biết, bất kể dữ liệu mới nào cũng sẽ đến tốt hơn."


Điều đó có nghĩa là đối với các cỡ mẫu nhất định, BIC có thể ít nghiêm ngặt hơn AIC?
russellpierce

1
Stringent không phải là một từ tốt nhất ở đây, mà khoan dung hơn cho các tham số; Tuy nhiên, đối với các định nghĩa phổ biến (với nhật ký tự nhiên), nó xảy ra cho 7 và ít đối tượng hơn.

AIC tương đương với sự xác nhận chéo.
Rob Hyndman

5
@mbq - Tôi không thấy cách xác thực chéo khắc phục vấn đề "không đại diện". Nếu dữ liệu đào tạo của bạn không đại diện cho dữ liệu bạn sẽ nhận được trong tương lai, bạn có thể xác thực chéo tất cả những gì bạn muốn, nhưng nó sẽ không thể hiện được "lỗi tổng quát hóa" mà bạn thực sự sẽ phải đối mặt (như " đúng "dữ liệu mới không được đại diện bởi phần không được mô hình hóa của dữ liệu đào tạo). Lấy một tập dữ liệu đại diện là rất quan trọng nếu bạn muốn đưa ra dự đoán tốt.
xác suất

1
@mbq - quan điểm của tôi là bạn dường như "từ chối nhẹ nhàng" lựa chọn dựa trên IC dựa trên một giải pháp thay thế không khắc phục được sự cố. Xác thực chéo là tốt (mặc dù tính toán có đáng không?), Nhưng dữ liệu không đại diện không thể được xử lý bằng cách sử dụng quy trình hướng dữ liệu. Ít nhất là không đáng tin cậy. Bạn cần có thông tin trước cho bạn biết nó không đại diện như thế nào (hay nói chung hơn, dữ liệu "không đại diện" nào có liên quan đến dữ liệu thực tế trong tương lai mà bạn sẽ quan sát).
xác suất

5

Như bạn đã đề cập, AIC và BIC là các phương pháp để xử phạt các mô hình vì có nhiều biến hồi quy hơn. Hàm hình phạt được sử dụng trong các phương thức này, là hàm của số lượng tham số trong mô hình.

  • Khi áp dụng AIC, hàm hình phạt là z (p) = 2 p .

  • Khi áp dụng BIC, hàm hình phạt là z (p) = p ln ( n ), dựa trên việc diễn giải hình phạt là xuất phát từ thông tin trước đó (do đó có tên là Tiêu chí thông tin Bayes).

Khi n lớn, hai mô hình sẽ tạo ra kết quả khá khác nhau. Sau đó, BIC áp dụng hình phạt lớn hơn nhiều đối với các mô hình phức tạp và do đó sẽ dẫn đến các mô hình đơn giản hơn AIC. Tuy nhiên, như đã nêu trong Wikipedia trên BIC :

cần lưu ý rằng trong nhiều ứng dụng ..., BIC chỉ đơn giản là giảm khả năng lựa chọn tối đa vì số lượng tham số là bằng nhau cho các mô hình quan tâm.


4
lưu ý rằng AIC cũng tương đương với ML khi kích thước không thay đổi. Câu trả lời của bạn làm cho có vẻ như điều này chỉ dành cho BIC.
xác suất

5

Từ những gì tôi có thể nói, không có nhiều khác biệt giữa AIC và BIC. Cả hai đều là xấp xỉ thuận tiện về mặt toán học mà người ta có thể thực hiện để so sánh hiệu quả các mô hình. Nếu họ cung cấp cho bạn các mô hình "tốt nhất" khác nhau, điều đó có thể có nghĩa là bạn có độ không chắc chắn của mô hình cao, điều quan trọng hơn là lo lắng về việc bạn nên sử dụng AIC hay BIC. Cá nhân tôi thích BIC hơn vì nó yêu cầu nhiều hơn (ít hơn) mô hình nếu nó có nhiều dữ liệu (ít hơn) để phù hợp với các tham số của nó - giống như một giáo viên yêu cầu tiêu chuẩn hiệu suất cao hơn (thấp hơn) nếu học sinh của họ có nhiều hơn (ít hơn) ) thời gian để tìm hiểu về chủ đề này. Đối với tôi điều này có vẻ như là điều trực quan để làm. Nhưng sau đó tôi chắc chắn cũng tồn tại những lý lẽ hấp dẫn và trực quan không kém đối với AIC, với hình thức đơn giản của nó.

Bây giờ bất cứ khi nào bạn thực hiện một xấp xỉ, chắc chắn sẽ có một số điều kiện khi những xấp xỉ đó là rác. Điều này có thể được nhìn thấy chắc chắn đối với AIC, nơi tồn tại nhiều "điều chỉnh" (AICc) để tính đến các điều kiện nhất định làm cho xấp xỉ ban đầu trở nên xấu. Điều này cũng có mặt cho BIC, bởi vì có nhiều phương pháp chính xác hơn (nhưng vẫn hiệu quả) khác, chẳng hạn như Xấp xỉ hoàn toàn cho các hỗn hợp của Zellner (BIC là một xấp xỉ với phương pháp xấp xỉ Laplace cho tích phân).

Một nơi mà cả hai đều tào lao là khi bạn có thông tin đáng kể trước về các tham số trong bất kỳ mô hình nào. AIC và BIC xử phạt các mô hình không cần thiết trong đó các tham số được biết một phần so với các mô hình yêu cầu các tham số được ước tính từ dữ liệu.

một điều tôi nghĩ rất quan trọng cần lưu ý là BIC không cho rằng mô hình "thật" a) tồn tại hoặc b) được chứa trong bộ mô hình. BIC chỉ đơn giản là một xấp xỉ với khả năng tích hợp (D = Dữ liệu, M = mô hình, A = giả định). Chỉ bằng cách nhân với một xác suất trước và sau đó bình thường hóa, bạn có thể nhận được . BIC chỉ đơn giản là đại diện cho khả năng của dữ liệu nếu mệnh đề ngụ ý của ký hiệu là đúng. Vì vậy, từ quan điểm logic, bất kỳ đề xuất nào dẫn đến BIC là một xấp xỉ đều được dữ liệu hỗ trợ như nhau. Vì vậy, nếu tôi nêu và là các mệnh đềP(D|M,A)P(M|D,A)MMA

Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best

Và sau đó tiếp tục gán các mô hình xác suất giống nhau (cùng tham số, cùng dữ liệu, cùng xấp xỉ, v.v.), tôi sẽ nhận được cùng một bộ các giá trị BIC. Chỉ bằng cách gắn một số ý nghĩa duy nhất vào chữ "M" mà người ta bị lôi kéo vào những câu hỏi không liên quan về "mô hình thực sự" (tiếng vang của "tôn giáo thực sự"). Điều duy nhất "định nghĩa" M là các phương trình toán học sử dụng nó trong các tính toán của họ - và điều này hầu như không bao giờ chỉ ra một và chỉ một định nghĩa. Tôi cũng có thể đưa ra một đề xuất dự đoán về M ("mô hình thứ i sẽ đưa ra dự đoán tốt nhất"). Cá nhân tôi không thể thấy điều này sẽ thay đổi bất kỳ khả năng nào, và do đó BIC sẽ tốt hay xấu (AIC cho vấn đề đó cũng vậy - mặc dù AIC dựa trên một dẫn xuất khác)

Và bên cạnh đó, những gì là sai với báo cáo kết quả Nếu mô hình đúng là trong tập Tôi đang xem xét, sau đó là một xác suất 57% rằng đó là mô hình B . Có vẻ đủ hợp lý với tôi, hoặc bạn có thể đi đến phiên bản "mềm" hơn, có xác suất 57% rằng mô hình B là tốt nhất trong số các bộ được xem xét

Một bình luận cuối cùng: Tôi nghĩ bạn sẽ tìm thấy nhiều ý kiến ​​về AIC / BIC như có những người biết về họ.


4

AIC hiếm khi nên được sử dụng, vì nó thực sự chỉ có giá trị không có triệu chứng. Hầu như luôn luôn tốt hơn để sử dụng AICc (AIC với một c orrection cho kích thước mẫu hữu hạn). AIC có xu hướng quá tham số hóa: vấn đề đó được giảm bớt rất nhiều với AICc. Ngoại lệ chính cho việc sử dụng AICc là khi các bản phân phối cơ bản có nhiều leptokurtic. Để biết thêm về điều này, xem cuốn sách Lựa chọn mô hình của Burnham & Anderson.


1
Vì vậy, điều bạn đang nói là AIC không đủ sức trừng phạt các mô hình cho các tham số nên việc sử dụng nó làm tiêu chí có thể dẫn đến tình trạng quá mức. Bạn khuyên bạn nên sử dụng AICc thay thế. Để đặt điều này trở lại trong bối cảnh câu hỏi ban đầu của tôi, vì BIC đã nghiêm ngặt hơn AIC, có lý do gì để sử dụng AICc trên BIC không?
russellpierce

1
AIC có nghĩa là gì là hợp lệ không có triệu chứng. Như John Taylor AIC đã chỉ ra là không nhất quán. Tôi nghĩ rằng các đồng tiền của anh ấy tương phản AIC với BIC là những thứ tốt nhất được đưa ra. Tôi không thấy hai cái này giống như xác nhận chéo. Tất cả chúng đều có một thuộc tính đẹp mà chúng thường đạt cực đại tại một mô hình có ít hơn số lượng biến tối đa. Nhưng tất cả họ có thể chọn các mô hình khác nhau.
Michael Chernick

4

AIC và BIC là tiêu chí thông tin để so sánh các mô hình. Mỗi cố gắng cân bằng mô hình phù hợp và phân tích cú pháp và mỗi hình phạt khác nhau cho số lượng tham số.

AIC là tiêu chí thông tin của Akaike, công thức là trong đó là số lượng tham số và là khả năng tối đa; với công thức này, nhỏ hơn là tốt hơn. (Tôi nhớ rằng một số chương trình xuất , nhưng tôi không nhớ chi tiết)

AIC=2k2ln(L)
kL2ln(L)2k

BIC là tiêu chí thông tin Bayes, công thức là và nó ưa thích các mô hình khác biệt hơn AIC

BIC=kln(n)2ln(L)

Tôi chưa nghe nói về KIC.


cũng chưa từng nghe về KIC, nhưng đối với AIC và BIC hãy xem câu hỏi được liên kết hoặc tìm kiếm AIC. stats.stackexchange.com/q/577/442
Henrik

1
(Câu trả lời này đã được hợp nhất từ ​​một câu hỏi trùng lặp cũng yêu cầu giải thích "KIC".)
whuber

3
Các mô hình không cần phải được lồng để so sánh với AIC hoặc BIC.
Macro

1

Rất ngắn gọn:

  • n
  • P(D|M,A)(D=Data,M=model,A=assumptions)P(M|D,A)nnk=n[11/(log(n)1)]n=cỡ mẫu (Shao 1997). Có nhiều phiên bản khác nhau của BIC mặc dù đưa ra các xấp xỉ khác nhau về khả năng cận biên hoặc giả định các linh mục khác nhau. Ví dụ, thay vì sử dụng đồng phục trước của tất cả các mô hình có thể có trong BIC ban đầu, EBIC sử dụng đồng phục trước của các mô hình có kích thước cố định ( Chen & Chen 2008 ) trong khi BICq sử dụng phân phối Bernouilli chỉ định xác suất trước cho từng tham số .

lambda=2lambda=log(n), trong đó tối ưu hóa một mục tiêu (LASSO hoặc hồi quy mạng đàn hồi) được theo sau bởi việc điều chỉnh (các) tham số chính quy dựa trên một số mục tiêu khác (ví dụ: giảm thiểu lỗi dự đoán xác thực chéo, AIC hoặc BIC).

n1n

Lưu ý rằng lỗi LOOCV cũng có thể được tính toán phân tích từ phần dư và đường chéo của ma trận mũ , mà không phải thực sự thực hiện bất kỳ xác nhận chéo nào. Điều này sẽ luôn luôn là một thay thế cho AIC như là một xấp xỉ tiệm cận của lỗi LOOCV.

Người giới thiệu

Stone M. (1977) Một sự tương đương tiệm cận của sự lựa chọn mô hình theo xác nhận chéo và tiêu chí của Akaike. Tạp chí của Hiệp hội Thống kê Hoàng gia B. 39, 44 trận7.

Shao J. (1997) Một lý thuyết tiệm cận cho lựa chọn mô hình tuyến tính. Statistica Sinica 7, 221-242.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.