Điểm số Akaike Information Criterion (AIC) của một người mẫu có ý nghĩa gì?


34

Tôi đã thấy một số câu hỏi ở đây về ý nghĩa của các giáo dân, nhưng đây là những giáo dân quá cho mục đích của tôi ở đây. Tôi đang cố gắng để hiểu một cách toán học điểm AIC có nghĩa là gì.

Nhưng đồng thời, tôi không muốn một bằng chứng chặt chẽ sẽ khiến tôi không nhìn thấy những điểm quan trọng hơn. Ví dụ, nếu đây là phép tính, tôi sẽ hài lòng với infinitesimals, và nếu đây là lý thuyết xác suất, tôi sẽ hạnh phúc nếu không có lý thuyết đo lường.

Nỗ lực của tôi

bằng cách đọc ở đây và một số ký hiệu đường của riêng tôi, là tiêu chí AIC của mô hình trên tập dữ liệu như sau: nơi là số thông số của mô hình , và là tối đa khả năng giá trị hàm của mô hình trên tập dữ liệu . m D AIC m , D = 2 k m - 2 ln ( L m , D ) k m m L m , D m DAICm,DmD

AICm,D=2km2ln(Lm,D)
kmmLm,DmD

Dưới đây là sự hiểu biết của tôi về những gì ở trên ngụ ý:

m=arg maxθPr(D|θ)

Cách này:

  • km là số lượng tham số của m .
  • Lm,D=Pr(D|m)=L(m|D) .

Bây giờ chúng ta hãy viết lại AIC:

AICm,D= =2km-2ln(Lm,D)= =2km-2ln(Pr(D|m))= =2km-2đăng nhậpe(Pr(D|m))

Rõ ràng, Pr(D|m) là xác suất quan sát tập dữ liệu D theo mô hình m . Vì vậy, mô hình m phù hợp với tập dữ liệu D , Pr(D|m) càng lớn, và do đó, thuật ngữ -2đăng nhậpe(Pr(D|m)) càng nhỏ.

Vì vậy, rõ ràng các mô hình phần thưởng AIC phù hợp với bộ dữ liệu của họ (vì AICm,D hơn là tốt hơn).

Mặt khác, thuật ngữ 2km trừng phạt rõ ràng các mô hình có nhiều tham số hơn bằng cách làm cho AICm,D lớn hơn.

Nói cách khác, AIC dường như là một biện pháp:

  • Thưởng các mô hình chính xác (những mô hình phù hợp với D tốt hơn) theo logarit. Ví dụ, phần thưởng tăng thể lực từ 0,4 đến 0,5 nhiều hơn phần thưởng cho sự tăng thể lực từ 0,8 đến 0,9 . Điều này được thể hiện trong hình dưới đây.
  • Phần thưởng giảm trong các tham số tuyến tính. Vì vậy, việc giảm các tham số từ xuống được thưởng nhiều như nó thưởng cho việc giảm từ xuống .8 2 19số 821

nhập mô tả hình ảnh ở đây

Nói cách khác (một lần nữa), AIC định nghĩa một sự đánh đổi giữa tầm quan trọng của sự đơn giản và tầm quan trọng của thể dục .

Nói cách khác (một lần nữa), AIC dường như gợi ý rằng:

  • Tầm quan trọng của thể dục giảm dần.
  • Nhưng tầm quan trọng của sự đơn giản không bao giờ giảm đi mà thay vào đó luôn luôn quan trọng.

Q1: Nhưng một câu hỏi là: tại sao chúng ta nên quan tâm đến sự đánh đổi thể dục đơn giản cụ thể này?

2: Tại sao và tại sao ? Tại sao không chỉ: tức là nên trong chế độ xem y có ích như nhau đối với và có thể phục vụ cho việc so sánh tương đối các mô hình khác nhau (nó chỉ không được chia tỷ lệ ; chúng ta có cần điều này không?).2 log e ( ... ) AIC m , D = 2 k m - 2 ln ( L m , D ) = 2 ( k m - ln ( L m , D ) ) AIC m , D2k2đăng nhậpe(Giáo dục)AICm,D,SIMPLEAICm,D2

AICm,D= =2km-2ln(Lm,D)= =2(km-ln(Lm,D))AICm,D2= =km-ln(Lm,D)AICm,D,ĐƠN GIẢN= =km-ln(Lm,D)
AICm,D,ĐƠN GIẢNAICm,D2

Câu 3: Làm thế nào điều này liên quan đến lý thuyết thông tin? Ai đó có thể rút ra điều này từ một khởi đầu lý thuyết thông tin?


2
Ký hiệu của bạn trong có nghĩa là gì? Bạn đang ám chỉ điều gì đó về sự lựa chọn mô hình ở đó? Những gì bạn có ở trên không thực sự ngụ ý rằng AIC yêu cầu bạn chọn một mô hình. Như bạn nói, Q2 là một thứ gì đó khá độc đoán, nhưng xuất phát từ việc biến AIC thành ước tính cho phân kỳ Kullback-Leibler, cũng liên quan đến câu trả lời cho Q1 và mang lại một số ý nghĩa cho các đại lượng như . exp ( ( AIC m - phút ( AIC 1 , ... , AIC M ) ) / 2 )m= =tranh luậntối đaθPr(D|θ)điểm kinh nghiệm((AICm-tối thiểu(AIC1,Giáo dục,AICM))/2)
Bjorn

θ Pr ( D | θ ) θ D D θ m θtối đaθPr(D|θ) có nghĩa là tiếp tục tìm kiếm nhiều cho đến khi bạn tìm thấy một cái làm giảm thiểu xác suất . Mỗi là một tuple / vector của các thông số xác định mô hình của chúng tôi cố gắng để giải thích số liệu . Vì vậy, về cơ bản nó nói: chúng ta có tập dữ liệu , xác suất mà nó được tạo bởi một mô hình được tham số hóa bởi gì? Mô hình của chúng tôi về cơ bản là giải quyết vấn đề tối đa hóa này. θPr(D|θ)θDDθmθ
thượng cổ

3
Xin lỗi, nhưng bạn đang xem qua nhiều mô hình (vì bạn viết ) hoặc bạn đang nói về ước tính khả năng tối đa ? Cũng lưu ý là xác suất của thiên đường dữ liệu phát sinh theo mô hình đã cho và đối với các tham số đã cho, không phải xác suất dữ liệu được tạo bởi mô hình đó được tham số hóa bởi . m= =Giáo dụcθ^: =tranh luậntối đaθPmô hình nhất định(D|θ)Pmô hình nhất định(D|θ)θ
Bjorn

MLE là những gì tôi có ý nghĩa. Nhưng tôi chỉ đang cố gắng nói rằng các tham số tuple là toàn diện đến mức nó cũng xác định mô hình. Ngoài ra, tôi có thể có nhiều mô hình, giả sử mỗi mô hình có điểm AIC khác nhau . Tôi chỉ đưa ra ký hiệu này vì tôi nghĩ nó đơn giản hơn. Tôi đang sai lầm khủng khiếp, hay nhầm lẫn không cần thiết này? (và cảm ơn bạn đã sửa cho tôi về ý nghĩa của MLE)θm1,m2AIC1,AIC2
caveman

3
Một dẫn xuất của AIC như là một xấp xỉ với mất thông tin KL dự kiến ​​được đưa ra ở Pawitan (2001), Trong tất cả khả năng , Ch 13.
Scortchi - Tái lập Monica

Câu trả lời:


13

Câu hỏi này của caveman là phổ biến, nhưng không có câu trả lời cố gắng trong nhiều tháng cho đến khi câu hỏi gây tranh cãi của tôi . Có thể là câu trả lời thực tế bên dưới không gây tranh cãi, chỉ đơn thuần là các câu hỏi là câu hỏi "được tải", bởi vì lĩnh vực này (ít nhất là đối với tôi) được sử dụng bởi các acolytes của AIC và BIC, người thích sử dụng OLS hơn phương pháp của nhau. Vui lòng xem tất cả các giả định được liệt kê và các hạn chế được đặt trên các loại dữ liệu và phương pháp phân tích, và vui lòng nhận xét về chúng; sửa lỗi này, đóng góp. Cho đến nay, một số người rất thông minh đã đóng góp, vì vậy tiến độ chậm đang được thực hiện. Tôi ghi nhận những đóng góp của Richard Hardy và GeoMatt22, những lời nói tử tế từ Antoni Parellada, và những nỗ lực dũng cảm của Cagdas Ozgenc và Ben Ogorek để liên hệ sự khác biệt của KL với sự khác biệt thực sự.

Trước khi bắt đầu, chúng ta hãy xem lại AIC là gì và một nguồn cho điều này là Điều kiện tiên quyết để so sánh mô hình AIC và một nguồn khác là từ Rob J Hyndman . Cụ thể, AIC được tính bằng

2k-2đăng nhập(L(θ)),

Trong đó là số lượng tham số trong mô hình và hàm khả năng. AIC so sánh sự đánh đổi giữa phương sai ( ) và sai lệch ( ) từ các giả định mô hình hóa. Từ Sự kiện và sai lầm của AIC , điểm 3 "AIC không cho rằng phần dư là Gaussian. Chỉ là khả năng Gaussian được sử dụng thường xuyên nhất. Nhưng nếu bạn muốn sử dụng một số phân phối khác, hãy tiếp tục." AIC là khả năng bị phạt, tùy theo khả năng bạn chọn sử dụng. Ví dụ: để giải quyết AIC cho phần dư được phân phối của Sinh viên, chúng tôi có thể sử dụng giải pháp khả năng tối đa cho Sinh viên . CácL ( θ ) 2 k 2 log ( L ( θ ) )kL(θ)2k2log(L(θ))khả năng đăng nhập thường được áp dụng cho AIC được lấy từ khả năng đăng nhập Gaussian và được đưa ra bởi

log(L(θ))=|D|2log(2π)12log(|K|)12(xμ)TK1(xμ),

| D | μ x K > > | D | > 2 K > | D | K > > | D | K | D | cK là cấu trúc hiệp phương sai của mô hình,cỡ mẫu; số lượng quan sát trong các bộ dữ liệu, phản ứng trung bình và biến phụ thuộc. Lưu ý rằng, nói đúng ra, AIC không cần thiết phải sửa kích thước mẫu, vì AIC không được sử dụng để so sánh các bộ dữ liệu, chỉ các mô hình sử dụng cùng một bộ dữ liệu. Do đó, chúng tôi không phải điều tra xem việc hiệu chỉnh kích thước mẫu có được thực hiện chính xác hay không, nhưng chúng tôi sẽ phải lo lắng về điều này nếu chúng tôi có thể khái quát hóa AIC bằng cách nào đó có ích giữa các bộ dữ liệu. Tương tự, phần lớn được tạo ra về để đảm bảo hiệu quả tiệm cận. Một cái nhìn tối giản có thể coi AIC chỉ là một "chỉ mục", làm cho|D|μxK>>|D|>2K>|D|có liên quan vàkhông liên quan. Tuy nhiên, một số chú ý đã được đưa ra cho điều này dưới dạng đề xuất AIC thay đổi cho không lớn hơn nhiều so vớiđược gọi là AIC xem đoạn thứ hai của câu trả lời cho Q2 bên dưới. Sự phổ biến các "biện pháp" này chỉ củng cố quan niệm rằng AIC là một chỉ số. Tuy nhiên, cần thận trọng khi sử dụng từ "i" vì một số người AIC ủng hộ việc sử dụng từ "chỉ số" với sự ưu ái giống như có thể được gắn với việc đề cập đến ontogeny của họ là ngoại khóa.K>>|D|K|D|c

Q1: Nhưng một câu hỏi là: tại sao chúng ta nên quan tâm đến sự đánh đổi thể dục đơn giản cụ thể này?

Trả lời thành hai phần. Đầu tiên là câu hỏi cụ thể. Bạn chỉ nên quan tâm vì đó là cách nó được xác định. Nếu bạn thích, không có lý do gì để không xác định CIC; một tiêu chí thông tin thượng cổ, nó sẽ không phải là AIC, nhưng CIC sẽ tạo ra các câu trả lời giống như AIC, nó không ảnh hưởng đến sự đánh đổi giữa sự phù hợp và sự đơn giản. Bất kỳ hằng số nào có thể được sử dụng như một số nhân AIC, bao gồm một lần, sẽ phải được chọn và tuân thủ, vì không có tiêu chuẩn tham chiếu nào để thực thi thang đo tuyệt đối. Tuy nhiên, việc tuân thủ một định nghĩa tiêu chuẩn không phải là tùy tiện theo nghĩa là có chỗ cho một và chỉ một định nghĩa, hoặc "quy ước" cho một đại lượng, như AIC, chỉ được định nghĩa trên thang đo tương đối. Cũng xem giả định AIC # 3, bên dưới.

Câu trả lời thứ hai cho câu hỏi này liên quan đến các chi tiết cụ thể của sự đánh đổi AIC giữa mức độ phù hợp và tính đơn giản bất kể cách thức nhân số không đổi của nó sẽ được chọn. Đó là, những gì thực sự ảnh hưởng đến "sự đánh đổi"? Một trong những điều ảnh hưởng đến điều này, là mức độ tự do điều chỉnh số lượng tham số trong một mô hình, điều này dẫn đến việc xác định AIC "mới" được gọi là AIC như sau:c

MộttôiCc= =MộttôiC+2k(k+1)n-k-1= =2knn-k-1-2ln(L),

Trong đó là cỡ mẫu. Do trọng số bây giờ hơi khác nhau khi so sánh các mô hình có số lượng tham số khác nhau, AIC chọn các mô hình khác với chính AIC và giống hệt AIC khi hai mô hình khác nhau nhưng có cùng số lượng tham số. Các phương pháp khác cũng sẽ chọn các mô hình khác nhau, ví dụ: " Tiêu chí thông tin BIC [sic, Bayesian ] thường xử phạt các tham số miễn phí mạnh hơn tiêu chí thông tin Akaike, mặc dù nó phụ thuộc ..." ANOVA cũng sẽ xử phạt các tham số siêu nhiên bằng xác suất từng phần của tính không thể thiếu của các giá trị tham số khác nhau và trong một số trường hợp sẽ thích hợp hơn để sử dụng AICnc. Nói chung, bất kỳ phương pháp đánh giá sự phù hợp của một mô hình sẽ có những ưu điểm và nhược điểm của nó. Lời khuyên của tôi sẽ là kiểm tra hiệu năng của bất kỳ phương pháp lựa chọn mô hình nào cho ứng dụng của nó đối với phương pháp hồi quy dữ liệu mạnh mẽ hơn là tự kiểm tra các mô hình. Bất kỳ lý do để nghi ngờ? Yup, cần thận trọng khi xây dựng hoặc chọn bất kỳ thử nghiệm mô hình nào để chọn các phương pháp phù hợp về phương pháp. AIC là hữu ích cho một tập hợp con các đánh giá mô hình, để xem Q3, tiếp theo. Ví dụ, trích xuất thông tin với mô hình A có thể được thực hiện tốt nhất với phương pháp hồi quy 1 và đối với mô hình B với phương pháp hồi quy 2, trong đó mô hình B và phương pháp 2 đôi khi mang lại các câu trả lời phi vật lý và trong đó phương pháp hồi quy không phải là MLR,

Câu 3 Điều này liên quan đến lý thuyết thông tin như thế nào :

Giả định MLR # 1. AIC được xác định dựa trên các giả định về khả năng áp dụng tối đa (MLR) cho vấn đề hồi quy. Chỉ có một tình huống trong đó hồi quy bình phương nhỏ nhất bình thường và hồi quy khả năng tối đa đã được chỉ ra cho tôi là giống nhau. Đó sẽ là khi phần dư từ hồi quy tuyến tính bình phương nhỏ nhất (OLS) thường được phân phối và MLR có hàm mất Gaussian. Trong các trường hợp khác của hồi quy tuyến tính OLS, đối với hồi quy OLS phi tuyến và các hàm mất không phải Gaussian, MLR và OLS có thể khác nhau. Có nhiều mục tiêu hồi quy khác ngoài OLS hoặc MLR hoặc thậm chí mức độ phù hợp và thường là một câu trả lời tốt không liên quan đến một trong hai, ví dụ, đối với hầu hết các vấn đề nghịch đảo. Có những nỗ lực được trích dẫn cao (ví dụ: 1100 lần) để sử dụng AIC tổng quát hóa cho khả năng gần đúng để sự phụ thuộc vào hồi quy khả năng tối đa được nới lỏng để thừa nhận các hàm mất chung hơn . Hơn nữa, MLR cho Student-t, mặc dù không ở dạng kín, nhưng lại hội tụ mạnh mẽ . Vì các phân phối dư của Student-t đều phổ biến hơn và tổng quát hơn, cũng như bao gồm các điều kiện Gaussian, tôi không thấy có lý do đặc biệt nào để sử dụng giả định Gaussian cho AIC.

Giả định MLR # 2. MLR là một nỗ lực để định lượng mức độ phù hợp. Nó đôi khi được áp dụng khi nó không thích hợp. Ví dụ, đối với dữ liệu phạm vi được cắt, khi mô hình được sử dụng không được cắt bớt. Goodness-of-fit là tốt và tốt nếu chúng ta có bảo hiểm thông tin đầy đủ. Trong chuỗi thời gian, chúng ta thường không có đủ thông tin nhanh để hiểu đầy đủ những sự kiện vật lý nào xảy ra ban đầu hoặc các mô hình của chúng ta có thể không đủ để kiểm tra dữ liệu rất sớm. Khó khăn hơn nữa là người ta thường không thể kiểm tra mức độ phù hợp vào những thời điểm rất muộn, vì thiếu dữ liệu. Do đó, mức độ phù hợp chỉ có thể mô hình hóa 30% diện tích phù hợp với đường cong và trong trường hợp đó, chúng tôi đang đánh giá một mô hình ngoại suy trên cơ sở dữ liệu ở đâu và chúng tôi không kiểm tra xem điều đó có nghĩa là gì. Để ngoại suy, chúng ta cần nhìn vào không chỉ mức độ phù hợp của 'số tiền' mà còn cả các dẫn xuất của những khoản tiền đó mà chúng ta không có "lòng tốt" của phép ngoại suy. Do đó, các kỹ thuật phù hợp như B-splines tìm thấy sử dụng vì chúng có thể dự đoán trơn tru hơn dữ liệu là gì khi các dẫn xuất phù hợp hoặc xử lý vấn đề ngược lại, ví dụ, xử lý tích hợp không phù hợp trên toàn bộ phạm vi mô hình, như Tikhonov thích ứng lan truyền lỗi chính quy.

Một mối quan tâm phức tạp khác, dữ liệu có thể cho chúng ta biết những gì chúng ta nên làm với nó. Những gì chúng ta cần cho sự phù hợp (khi thích hợp), là có phần dư là khoảng cách theo nghĩa là độ lệch chuẩn là khoảng cách. Đó là, độ phù hợp sẽ không có nhiều ý nghĩa nếu phần dư dài gấp đôi độ lệch chuẩn không phải là độ dài hai độ lệch chuẩn. Lựa chọn các biến đổi dữ liệu nên được nghiên cứu trước khi áp dụng bất kỳ phương pháp lựa chọn / hồi quy mô hình nào. Nếu dữ liệu có lỗi loại tỷ lệ, thông thường lấy logarit trước khi chọn hồi quy là không phù hợp, vì sau đó nó biến đổi độ lệch chuẩn thành khoảng cách. Ngoài ra, chúng ta có thể thay đổi định mức được tối thiểu hóa để phù hợp với dữ liệu tỷ lệ phù hợp. Điều tương tự sẽ áp dụng cho cấu trúc lỗi Poisson, chúng ta có thể lấy căn bậc hai của dữ liệu để chuẩn hóa lỗi hoặc thay đổi định mức cho phù hợp. Có những vấn đề phức tạp hơn hoặc thậm chí khó hiểu hơn nếu chúng ta không thể thay đổi định mức cho phù hợp, ví dụ: thống kê đếm Poisson từ phân rã hạt nhân khi phân rã hạt nhân phóng xạ đưa ra mối liên hệ theo thời gian theo hàm mũ giữa dữ liệu đếm và khối lượng thực tế sẽ có đã phát ra những tính toán đó đã không có sự phân rã. Tại sao? Nếu chúng ta phân rã chính xác lại tỷ lệ đếm, chúng ta không còn thống kê Poisson và phần dư (hoặc lỗi) từ căn bậc hai của số đếm đã sửa không còn là khoảng cách nữa. Sau đó, nếu chúng tôi muốn thực hiện một bài kiểm tra mức độ phù hợp của dữ liệu đã phân rã (ví dụ AIC), chúng tôi sẽ phải làm điều đó theo một cách nào đó mà bản thân khiêm tốn của tôi không biết. Câu hỏi mở cho độc giả, nếu chúng tôi khăng khăng sử dụng MLR, chúng ta có thể thay đổi định mức của nó để giải thích cho loại lỗi của dữ liệu (mong muốn) hay chúng ta phải luôn chuyển đổi dữ liệu để cho phép sử dụng MLR (không hữu ích)? Lưu ý, AIC không so sánh các phương thức hồi quy cho một mô hình duy nhất, nó so sánh các mô hình khác nhau cho cùng một phương pháp hồi quy.

Giả định AIC # 1. Dường như MLR không bị hạn chế đối với phần dư thông thường, ví dụ, xem câu hỏi này về MLR và Student's-t . Tiếp theo, chúng ta hãy giả sử rằng MLR phù hợp với vấn đề của chúng ta để chúng ta theo dõi việc sử dụng nó để so sánh các giá trị AIC trên lý thuyết. Tiếp theo chúng ta giả định rằng có 1) thông tin đầy đủ, 2) cùng một loại phân phối của dư (ví dụ, cả hai đều bình thường, cả hai Student's- t ) trong vòng ít nhất 2 mô hình. Đó là, chúng ta có một tai nạn là hai mô hình bây giờ sẽ có kiểu phân phối dư. Điều đó có thể xảy ra không? Có, có lẽ, nhưng chắc chắn không phải lúc nào.

Giả định AIC # 2. AIC liên quan đến logarit âm của đại lượng (số lượng tham số trong mô hình chia cho phân kỳ Kullback - Leibler ). Là giả định này cần thiết? Trong các hàm mất chung, một "phân kỳ" khác nhau được sử dụng. Điều này khiến chúng ta đặt câu hỏi nếu biện pháp khác đó chung chung hơn phân kỳ KL, tại sao chúng ta cũng không sử dụng nó cho AIC?

Thông tin không khớp với AIC từ phân kỳ Kullback-Leibler là "Mặc dù ... thường được hiểu là cách đo khoảng cách giữa các phân phối xác suất, phân kỳ Kullback tựa Leibler không phải là một số liệu thực sự." Chúng ta sẽ thấy tại sao trong thời gian ngắn.

Đối số KL đạt đến điểm khác biệt giữa hai thứ mà mô hình (P) và dữ liệu (Q) là

DKL(PQ)= =Xđăng nhập(dPdQ)dPdQdQ,

mà chúng tôi nhận ra là entropy của '' P '' so với '' Q ''.

Giả định AIC # 3. Hầu hết các công thức liên quan đến phân kỳ KullbackTHER Leibler giữ bất kể cơ sở của logarit. Hệ số nhân không đổi có thể có ý nghĩa hơn nếu AIC liên quan đến nhiều dữ liệu được đặt cùng một lúc. Vì nó đứng khi so sánh các phương thức, nếu thì bất kỳ số lần dương nào sẽ vẫn là . Vì nó là tùy ý, việc đặt hằng số thành một giá trị cụ thể làm vấn đề định nghĩa cũng không phù hợp.MộttôiCdmộttmột,modetôi1<MộttôiCdmộttmột,modetôi2<

Giả định AIC # 4. Đó sẽ là AIC đo lường Shannon entropy hoặc thông tin tự . "Điều chúng ta cần biết là" Có phải entropy là những gì chúng ta cần cho một thước đo thông tin? "

Để hiểu "thông tin bản thân" là gì, nó sẽ cho chúng ta bình thường hóa thông tin trong bối cảnh vật lý, bất kỳ ai cũng sẽ làm. Có, tôi muốn một thước đo thông tin để có các thuộc tính là vật lý. Vì vậy, những gì sẽ trông như thế nào trong một bối cảnh chung hơn?

Phương trình năng lượng tự do Gibbs (ΔG= =ΔH-TΔS) liên quan đến sự thay đổi năng lượng với sự thay đổi entanpy trừ đi nhiệt độ tuyệt đối nhân với sự thay đổi của entropy. Nhiệt độ là một ví dụ về một loại nội dung thông tin được chuẩn hóa thành công, bởi vì nếu một viên gạch nóng và lạnh được đặt tiếp xúc với nhau trong môi trường kín nhiệt, thì nhiệt sẽ truyền giữa chúng. Bây giờ, nếu chúng ta nhảy vào điều này mà không suy nghĩ quá nhiều, chúng ta nói rằng sức nóng là thông tin. Nhưng nó có phải là thông tin tương đối dự đoán hành vi của một hệ thống. Dòng thông tin cho đến khi đạt đến trạng thái cân bằng, nhưng cân bằng là gì? Nhiệt độ, đó là nhiệt độ, không phải nhiệt như trong vận tốc hạt của các khối hạt nhất định, tôi không nói về nhiệt độ phân tử, tôi đang nói về nhiệt độ gộp của hai viên gạch có thể có khối lượng khác nhau, được làm bằng vật liệu khác nhau, có mật độ khác nhau, v.v. và không ai trong số đó tôi phải biết, tất cả những gì tôi cần biết là nhiệt độ gộp là những gì cân bằng. Do đó, nếu một viên gạch nóng hơn, thì nó có nội dung thông tin tương đối nhiều hơn và khi lạnh hơn, ít hơn.

Bây giờ, nếu tôi được bảo một viên gạch có nhiều entropy hơn viên kia, vậy thì sao? Điều đó, tự nó, sẽ không dự đoán nếu nó sẽ đạt được hoặc mất entropy khi đặt tiếp xúc với một viên gạch khác. Vì vậy, entropy một mình là một biện pháp thông tin hữu ích? Có, nhưng chỉ khi chúng ta so sánh cùng một viên gạch với chính nó, thì thuật ngữ "tự thông tin".

Từ đó đưa ra hạn chế cuối cùng: Để sử dụng phân kỳ KL, tất cả các viên gạch phải giống hệt nhau. Do đó, điều khiến AIC trở thành một chỉ số không điển hình là nó không khả chuyển giữa các tập dữ liệu (ví dụ: các khối hình khác nhau), đây không phải là một đặc tính mong muốn có thể được giải quyết bằng cách bình thường hóa nội dung thông tin. Là phân kỳ tuyến tính KL? Có thể có có thể không. Tuy nhiên, điều đó không quan trọng, chúng ta không cần phải giả sử tuyến tính để sử dụng AIC, và, ví dụ, bản thân entropy tôi không nghĩ là liên quan tuyến tính với nhiệt độ. Nói cách khác, chúng ta không cần một số liệu tuyến tính để sử dụng các phép tính entropy.

Một nguồn thông tin tốt về AIC là trong luận án này . Về mặt bi quan, điều này nói, "Bản thân nó, giá trị của AIC cho một tập dữ liệu nhất định không có ý nghĩa gì." Về mặt lạc quan, điều này nói rằng các mô hình có kết quả chặt chẽ có thể được phân biệt bằng cách làm mịn để thiết lập khoảng tin cậy, và nhiều hơn nữa.


1
Bạn có thể chỉ ra sự khác biệt chính giữa câu trả lời mới và câu trả lời đã xóa cũ? Có vẻ như có một số chồng chéo.
Richard Hardy

2
Tôi đang ở giữa chỉnh sửa câu trả lời của mình trong vài giờ khi nó bị xóa. Có rất nhiều thay đổi so với khi tôi bắt đầu vì đây là một công việc đang tiến triển, đã đọc và suy nghĩ rất nhiều, và các đồng nghiệp của tôi trên trang này dường như không quan tâm đến nó, nhưng không giúp trả lời bất cứ điều gì. AIC có vẻ như là quá tốt để đánh giá quan trọng, làm sao tôi dám? Tôi đã hoàn thành chỉnh sửa của mình và đăng lại nó. Tôi muốn biết những gì không chính xác về câu trả lời của tôi. Tôi đã làm việc chăm chỉ về nó, và đã cố gắng trung thực, và, không ai khác làm phiền.
Carl

4
Đừng buồn. Trải nghiệm đầu tiên của tôi ở đây cũng rất bực bội, nhưng sau đó tôi đã học cách đặt câu hỏi theo cách thích hợp. Giữ một giọng điệu trung lập và tránh những ý kiến ​​mạnh mẽ không dựa trên những sự thật khó khăn sẽ là bước đầu tiên tốt, IMHO. (Nhân tiện, tôi đã nêu lên câu hỏi của bạn, nhưng vẫn ngần ngại về câu trả lời.)
Richard Hardy

3
+1 Chỉ cho lời mở đầu của bạn. Bây giờ tôi sẽ tiếp tục đọc câu trả lời.
Antoni Parellada

2
@AntoniParellada Bạn đã giúp đỡ bằng cách giữ cho câu hỏi không bị xóa, điều mà tôi đánh giá cao. Làm việc thông qua AIC rất khó khăn và tôi cần sự giúp đỡ. Chắc chắn một số hiểu biết của tôi là tốt, nhưng tôi cũng mắc bệnh về miệng, mà những người khác có khả năng nắm bắt tốt hơn tôi
Carl

5

AIC là ước tính của hai lần thuật ngữ phụ gia theo mô hình cho phân kỳ Kullback - Leibler dự kiến ​​giữa phân phối thực và mô hình tham số xấp xỉ .fg

Phân kỳ KL là một chủ đề trong lý thuyết thông tin và hoạt động theo trực giác (mặc dù không nghiêm ngặt) như là thước đo khoảng cách giữa hai phân phối xác suất. Trong phần giải thích của tôi dưới đây, tôi đang tham khảo các slide này từ Shuhua Hu. Câu trả lời này vẫn cần một trích dẫn cho "kết quả chính."

Phân kỳ KL giữa mô hình thực và mô hình gần đúng là fgθ

d(f,gθ)= =f(x)đăng nhập(f(x))dx-f(x)đăng nhập(gθ(x))dx

Vì sự thật là không xác định, dữ liệu được tạo từ và ước tính khả năng tối đa mang lại ước tính . Thay thế bằng trong các phương trình trên có nghĩa là cả thuật ngữ thứ hai trong công thức phân kỳ KL cũng như chính phân kỳ KL đều là các biến ngẫu nhiên. "Kết quả chính" trong các slide là trung bình của thuật ngữ phụ gia thứ hai liên quan đến có thể được ước tính bằng một hàm đơn giản của hàm khả năng (được đánh giá tại MLE) và , thứ nguyên của : yfθ^(y)θθ^(y)yLkθ

-Ey[f(x)đăng nhập(gθ^(y)(x))dx]-đăng nhập(L(θ^(y)))+k.

AIC được định nghĩa là gấp đôi kỳ vọng ở trên (HT @Carl) và các giá trị nhỏ hơn (âm hơn) tương ứng với phân kỳ KL ước tính nhỏ hơn giữa phân phối thực và phân phối được mô hình hóa .fgθ^(y)


Như bạn đã biết, thuật ngữ sai lệch khi áp dụng cho khả năng đăng nhập là biệt ngữ và không chính xác. Tôi đã bỏ qua cuộc thảo luận về điều này bởi vì chỉ có sự đơn điệu là cần thiết cho sự khác biệt của AIC để có giá trị so sánh không tuyến tính. Vì vậy, tôi không thấy được sự liên quan của việc cố gắng quá mức để "hình dung" thứ gì đó có khả năng không có ở đó và dù sao cũng không cần thiết.
Carl

2
Tôi thấy quan điểm của bạn rằng đoạn cuối thêm một cá trích đỏ và tôi nhận ra rằng không ai cần phải bị thuyết phục rằng 2 * x xếp hạng giống như x. Nếu công bằng để nói rằng số lượng được nhân với 2 "theo quy ước"?
Ben Ogorek

2
Một cái gì đó như thế. Cá nhân, tôi sẽ bỏ phiếu cho "được định nghĩa là", vì ban đầu nó được chọn theo cách đó. Hoặc để đặt điều này trong viễn cảnh tạm thời, bất kỳ hằng số nào có thể được sử dụng, bao gồm một lần, sẽ phải được chọn và tuân thủ, vì không có tiêu chuẩn tham chiếu để thực thi thang đo.
Carl

4

Một quan điểm đơn giản cho hai câu hỏi đầu tiên của bạn là AIC có liên quan đến tỷ lệ lỗi ngoài mẫu dự kiến ​​của mô hình khả năng tối đa. Tiêu chí AIC dựa trên mối quan hệ (Các yếu tố của phương trình Học thống kê 7.27) trong đó, theo ký hiệu của bạn, là số lượng tham số trong mô hình có giá trị khả năng tối đa là .

-2E[lnPr(D|θ)]-2NE[lnLm,D]+2kmN= =1NE[MộttôiCm,D]
kmmLm,D

Thuật ngữ bên trái là tỷ lệ "lỗi" ngoài mẫu dự kiến ​​của mô hình khả năng tối đa , sử dụng nhật ký xác suất làm chỉ số lỗi. Hệ số -2 là hiệu chỉnh truyền thống được sử dụng để xây dựng độ lệch (hữu ích vì trong một số trường hợp nhất định, nó tuân theo phân phối chi bình phương).m= ={θ}

Tay phải bao gồm tỷ lệ "lỗi" trong mẫu được ước tính từ khả năng đăng nhập tối đa hóa, cộng với thuật ngữ sửa lỗi cho sự lạc quan của khả năng đăng nhập tối đa, có thể tự do kiểm soát dữ liệu.2km/N

Như vậy, AIC là một ước lượng out-of-mẫu "lỗi" tốc độ (lệch) lần .N

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.