Câu hỏi này của caveman là phổ biến, nhưng không có câu trả lời cố gắng trong nhiều tháng cho đến khi câu hỏi gây tranh cãi của tôi . Có thể là câu trả lời thực tế bên dưới không gây tranh cãi, chỉ đơn thuần là các câu hỏi là câu hỏi "được tải", bởi vì lĩnh vực này (ít nhất là đối với tôi) được sử dụng bởi các acolytes của AIC và BIC, người thích sử dụng OLS hơn phương pháp của nhau. Vui lòng xem tất cả các giả định được liệt kê và các hạn chế được đặt trên các loại dữ liệu và phương pháp phân tích, và vui lòng nhận xét về chúng; sửa lỗi này, đóng góp. Cho đến nay, một số người rất thông minh đã đóng góp, vì vậy tiến độ chậm đang được thực hiện. Tôi ghi nhận những đóng góp của Richard Hardy và GeoMatt22, những lời nói tử tế từ Antoni Parellada, và những nỗ lực dũng cảm của Cagdas Ozgenc và Ben Ogorek để liên hệ sự khác biệt của KL với sự khác biệt thực sự.
Trước khi bắt đầu, chúng ta hãy xem lại AIC là gì và một nguồn cho điều này là Điều kiện tiên quyết để so sánh mô hình AIC và một nguồn khác là từ Rob J Hyndman . Cụ thể, AIC được tính bằng
2 k - 2 khúc gỗ( L ( θ ) ),
Trong đó là số lượng tham số trong mô hình và hàm khả năng. AIC so sánh sự đánh đổi giữa phương sai ( ) và sai lệch ( ) từ các giả định mô hình hóa. Từ Sự kiện và sai lầm của AIC , điểm 3 "AIC không cho rằng phần dư là Gaussian. Chỉ là khả năng Gaussian được sử dụng thường xuyên nhất. Nhưng nếu bạn muốn sử dụng một số phân phối khác, hãy tiếp tục." AIC là khả năng bị phạt, tùy theo khả năng bạn chọn sử dụng. Ví dụ: để giải quyết AIC cho phần dư được phân phối của Sinh viên, chúng tôi có thể sử dụng giải pháp khả năng tối đa cho Sinh viên . CácL ( θ ) 2 k 2 log ( L ( θ ) )kL ( θ )2 k2 khúc gỗ(L(θ))khả năng đăng nhập thường được áp dụng cho AIC được lấy từ khả năng đăng nhập Gaussian và được đưa ra bởi
log(L(θ))=−|D|2log(2π)−12log(|K|)−12(x−μ)TK−1(x−μ),
| D | μ x K > > | D | > 2 K > | D | K > > | D | K | D | cK là cấu trúc hiệp phương sai của mô hình,cỡ mẫu; số lượng quan sát trong các bộ dữ liệu, phản ứng trung bình và biến phụ thuộc. Lưu ý rằng, nói đúng ra, AIC không cần thiết phải sửa kích thước mẫu, vì AIC không được sử dụng để so sánh các bộ dữ liệu, chỉ các mô hình sử dụng cùng một bộ dữ liệu. Do đó, chúng tôi không phải điều tra xem việc hiệu chỉnh kích thước mẫu có được thực hiện chính xác hay không, nhưng chúng tôi sẽ phải lo lắng về điều này nếu chúng tôi có thể khái quát hóa AIC bằng cách nào đó có ích giữa các bộ dữ liệu. Tương tự, phần lớn được tạo ra về để đảm bảo hiệu quả tiệm cận. Một cái nhìn tối giản có thể coi AIC chỉ là một "chỉ mục", làm cho| D |μxK> > | D | > 2K> | D |có liên quan vàkhông liên quan. Tuy nhiên, một số chú ý đã được đưa ra cho điều này dưới dạng đề xuất AIC thay đổi cho không lớn hơn nhiều so vớiđược gọi là AIC xem đoạn thứ hai của câu trả lời cho Q2 bên dưới. Sự phổ biến các "biện pháp" này chỉ củng cố quan niệm rằng AIC là một chỉ số. Tuy nhiên, cần thận trọng khi sử dụng từ "i" vì một số người AIC ủng hộ việc sử dụng từ "chỉ số" với sự ưu ái giống như có thể được gắn với việc đề cập đến ontogeny của họ là ngoại khóa.K> > | D |K| D |c
Q1: Nhưng một câu hỏi là: tại sao chúng ta nên quan tâm đến sự đánh đổi thể dục đơn giản cụ thể này?
Trả lời thành hai phần. Đầu tiên là câu hỏi cụ thể. Bạn chỉ nên quan tâm vì đó là cách nó được xác định. Nếu bạn thích, không có lý do gì để không xác định CIC; một tiêu chí thông tin thượng cổ, nó sẽ không phải là AIC, nhưng CIC sẽ tạo ra các câu trả lời giống như AIC, nó không ảnh hưởng đến sự đánh đổi giữa sự phù hợp và sự đơn giản. Bất kỳ hằng số nào có thể được sử dụng như một số nhân AIC, bao gồm một lần, sẽ phải được chọn và tuân thủ, vì không có tiêu chuẩn tham chiếu nào để thực thi thang đo tuyệt đối. Tuy nhiên, việc tuân thủ một định nghĩa tiêu chuẩn không phải là tùy tiện theo nghĩa là có chỗ cho một và chỉ một định nghĩa, hoặc "quy ước" cho một đại lượng, như AIC, chỉ được định nghĩa trên thang đo tương đối. Cũng xem giả định AIC # 3, bên dưới.
Câu trả lời thứ hai cho câu hỏi này liên quan đến các chi tiết cụ thể của sự đánh đổi AIC giữa mức độ phù hợp và tính đơn giản bất kể cách thức nhân số không đổi của nó sẽ được chọn. Đó là, những gì thực sự ảnh hưởng đến "sự đánh đổi"? Một trong những điều ảnh hưởng đến điều này, là mức độ tự do điều chỉnh số lượng tham số trong một mô hình, điều này dẫn đến việc xác định AIC "mới" được gọi là AIC như sau:c
Một tôiCc= Một TôiC+ 2 k ( k + 1 )n - k - 1= 2 k nn - k - 1- 2 ln( L ),
Trong đó là cỡ mẫu. Do trọng số bây giờ hơi khác nhau khi so sánh các mô hình có số lượng tham số khác nhau, AIC chọn các mô hình khác với chính AIC và giống hệt AIC khi hai mô hình khác nhau nhưng có cùng số lượng tham số. Các phương pháp khác cũng sẽ chọn các mô hình khác nhau, ví dụ: " Tiêu chí thông tin BIC [sic, Bayesian ] thường xử phạt các tham số miễn phí mạnh hơn tiêu chí thông tin Akaike, mặc dù nó phụ thuộc ..." ANOVA cũng sẽ xử phạt các tham số siêu nhiên bằng xác suất từng phần của tính không thể thiếu của các giá trị tham số khác nhau và trong một số trường hợp sẽ thích hợp hơn để sử dụng AICnc. Nói chung, bất kỳ phương pháp đánh giá sự phù hợp của một mô hình sẽ có những ưu điểm và nhược điểm của nó. Lời khuyên của tôi sẽ là kiểm tra hiệu năng của bất kỳ phương pháp lựa chọn mô hình nào cho ứng dụng của nó đối với phương pháp hồi quy dữ liệu mạnh mẽ hơn là tự kiểm tra các mô hình. Bất kỳ lý do để nghi ngờ? Yup, cần thận trọng khi xây dựng hoặc chọn bất kỳ thử nghiệm mô hình nào để chọn các phương pháp phù hợp về phương pháp. AIC là hữu ích cho một tập hợp con các đánh giá mô hình, để xem Q3, tiếp theo. Ví dụ, trích xuất thông tin với mô hình A có thể được thực hiện tốt nhất với phương pháp hồi quy 1 và đối với mô hình B với phương pháp hồi quy 2, trong đó mô hình B và phương pháp 2 đôi khi mang lại các câu trả lời phi vật lý và trong đó phương pháp hồi quy không phải là MLR,
Câu 3 Điều này liên quan đến lý thuyết thông tin như thế nào :
Giả định MLR # 1. AIC được xác định dựa trên các giả định về khả năng áp dụng tối đa (MLR) cho vấn đề hồi quy. Chỉ có một tình huống trong đó hồi quy bình phương nhỏ nhất bình thường và hồi quy khả năng tối đa đã được chỉ ra cho tôi là giống nhau. Đó sẽ là khi phần dư từ hồi quy tuyến tính bình phương nhỏ nhất (OLS) thường được phân phối và MLR có hàm mất Gaussian. Trong các trường hợp khác của hồi quy tuyến tính OLS, đối với hồi quy OLS phi tuyến và các hàm mất không phải Gaussian, MLR và OLS có thể khác nhau. Có nhiều mục tiêu hồi quy khác ngoài OLS hoặc MLR hoặc thậm chí mức độ phù hợp và thường là một câu trả lời tốt không liên quan đến một trong hai, ví dụ, đối với hầu hết các vấn đề nghịch đảo. Có những nỗ lực được trích dẫn cao (ví dụ: 1100 lần) để sử dụng AIC tổng quát hóa cho khả năng gần đúng để sự phụ thuộc vào hồi quy khả năng tối đa được nới lỏng để thừa nhận các hàm mất chung hơn . Hơn nữa, MLR cho Student-t, mặc dù không ở dạng kín, nhưng lại hội tụ mạnh mẽ . Vì các phân phối dư của Student-t đều phổ biến hơn và tổng quát hơn, cũng như bao gồm các điều kiện Gaussian, tôi không thấy có lý do đặc biệt nào để sử dụng giả định Gaussian cho AIC.
Giả định MLR # 2. MLR là một nỗ lực để định lượng mức độ phù hợp. Nó đôi khi được áp dụng khi nó không thích hợp. Ví dụ, đối với dữ liệu phạm vi được cắt, khi mô hình được sử dụng không được cắt bớt. Goodness-of-fit là tốt và tốt nếu chúng ta có bảo hiểm thông tin đầy đủ. Trong chuỗi thời gian, chúng ta thường không có đủ thông tin nhanh để hiểu đầy đủ những sự kiện vật lý nào xảy ra ban đầu hoặc các mô hình của chúng ta có thể không đủ để kiểm tra dữ liệu rất sớm. Khó khăn hơn nữa là người ta thường không thể kiểm tra mức độ phù hợp vào những thời điểm rất muộn, vì thiếu dữ liệu. Do đó, mức độ phù hợp chỉ có thể mô hình hóa 30% diện tích phù hợp với đường cong và trong trường hợp đó, chúng tôi đang đánh giá một mô hình ngoại suy trên cơ sở dữ liệu ở đâu và chúng tôi không kiểm tra xem điều đó có nghĩa là gì. Để ngoại suy, chúng ta cần nhìn vào không chỉ mức độ phù hợp của 'số tiền' mà còn cả các dẫn xuất của những khoản tiền đó mà chúng ta không có "lòng tốt" của phép ngoại suy. Do đó, các kỹ thuật phù hợp như B-splines tìm thấy sử dụng vì chúng có thể dự đoán trơn tru hơn dữ liệu là gì khi các dẫn xuất phù hợp hoặc xử lý vấn đề ngược lại, ví dụ, xử lý tích hợp không phù hợp trên toàn bộ phạm vi mô hình, như Tikhonov thích ứng lan truyền lỗi chính quy.
Một mối quan tâm phức tạp khác, dữ liệu có thể cho chúng ta biết những gì chúng ta nên làm với nó. Những gì chúng ta cần cho sự phù hợp (khi thích hợp), là có phần dư là khoảng cách theo nghĩa là độ lệch chuẩn là khoảng cách. Đó là, độ phù hợp sẽ không có nhiều ý nghĩa nếu phần dư dài gấp đôi độ lệch chuẩn không phải là độ dài hai độ lệch chuẩn. Lựa chọn các biến đổi dữ liệu nên được nghiên cứu trước khi áp dụng bất kỳ phương pháp lựa chọn / hồi quy mô hình nào. Nếu dữ liệu có lỗi loại tỷ lệ, thông thường lấy logarit trước khi chọn hồi quy là không phù hợp, vì sau đó nó biến đổi độ lệch chuẩn thành khoảng cách. Ngoài ra, chúng ta có thể thay đổi định mức được tối thiểu hóa để phù hợp với dữ liệu tỷ lệ phù hợp. Điều tương tự sẽ áp dụng cho cấu trúc lỗi Poisson, chúng ta có thể lấy căn bậc hai của dữ liệu để chuẩn hóa lỗi hoặc thay đổi định mức cho phù hợp. Có những vấn đề phức tạp hơn hoặc thậm chí khó hiểu hơn nếu chúng ta không thể thay đổi định mức cho phù hợp, ví dụ: thống kê đếm Poisson từ phân rã hạt nhân khi phân rã hạt nhân phóng xạ đưa ra mối liên hệ theo thời gian theo hàm mũ giữa dữ liệu đếm và khối lượng thực tế sẽ có đã phát ra những tính toán đó đã không có sự phân rã. Tại sao? Nếu chúng ta phân rã chính xác lại tỷ lệ đếm, chúng ta không còn thống kê Poisson và phần dư (hoặc lỗi) từ căn bậc hai của số đếm đã sửa không còn là khoảng cách nữa. Sau đó, nếu chúng tôi muốn thực hiện một bài kiểm tra mức độ phù hợp của dữ liệu đã phân rã (ví dụ AIC), chúng tôi sẽ phải làm điều đó theo một cách nào đó mà bản thân khiêm tốn của tôi không biết. Câu hỏi mở cho độc giả, nếu chúng tôi khăng khăng sử dụng MLR, chúng ta có thể thay đổi định mức của nó để giải thích cho loại lỗi của dữ liệu (mong muốn) hay chúng ta phải luôn chuyển đổi dữ liệu để cho phép sử dụng MLR (không hữu ích)? Lưu ý, AIC không so sánh các phương thức hồi quy cho một mô hình duy nhất, nó so sánh các mô hình khác nhau cho cùng một phương pháp hồi quy.
Giả định AIC # 1. Dường như MLR không bị hạn chế đối với phần dư thông thường, ví dụ, xem câu hỏi này về MLR và Student's-t . Tiếp theo, chúng ta hãy giả sử rằng MLR phù hợp với vấn đề của chúng ta để chúng ta theo dõi việc sử dụng nó để so sánh các giá trị AIC trên lý thuyết. Tiếp theo chúng ta giả định rằng có 1) thông tin đầy đủ, 2) cùng một loại phân phối của dư (ví dụ, cả hai đều bình thường, cả hai Student's- t ) trong vòng ít nhất 2 mô hình. Đó là, chúng ta có một tai nạn là hai mô hình bây giờ sẽ có kiểu phân phối dư. Điều đó có thể xảy ra không? Có, có lẽ, nhưng chắc chắn không phải lúc nào.
Giả định AIC # 2. AIC liên quan đến logarit âm của đại lượng (số lượng tham số trong mô hình chia cho phân kỳ Kullback - Leibler ). Là giả định này cần thiết? Trong các hàm mất chung, một "phân kỳ" khác nhau được sử dụng. Điều này khiến chúng ta đặt câu hỏi nếu biện pháp khác đó chung chung hơn phân kỳ KL, tại sao chúng ta cũng không sử dụng nó cho AIC?
Thông tin không khớp với AIC từ phân kỳ Kullback-Leibler là "Mặc dù ... thường được hiểu là cách đo khoảng cách giữa các phân phối xác suất, phân kỳ Kullback tựa Leibler không phải là một số liệu thực sự." Chúng ta sẽ thấy tại sao trong thời gian ngắn.
Đối số KL đạt đến điểm khác biệt giữa hai thứ mà mô hình (P) và dữ liệu (Q) là
DK L( P∥ Q ) = ∫Xđăng nhập( d Pd Q) d Pd Qd Q,
mà chúng tôi nhận ra là entropy của '' P '' so với '' Q ''.
Giả định AIC # 3. Hầu hết các công thức liên quan đến phân kỳ KullbackTHER Leibler giữ bất kể cơ sở của logarit. Hệ số nhân không đổi có thể có ý nghĩa hơn nếu AIC liên quan đến nhiều dữ liệu được đặt cùng một lúc. Vì nó đứng khi so sánh các phương thức, nếu thì bất kỳ số lần dương nào sẽ vẫn là . Vì nó là tùy ý, việc đặt hằng số thành một giá trị cụ thể làm vấn đề định nghĩa cũng không phù hợp.Một tôiCda t a , m o de l 1< Một TôiCda t a , m o de l 2<
Giả định AIC # 4. Đó sẽ là AIC đo lường Shannon entropy hoặc thông tin tự . "Điều chúng ta cần biết là" Có phải entropy là những gì chúng ta cần cho một thước đo thông tin? "
Để hiểu "thông tin bản thân" là gì, nó sẽ cho chúng ta bình thường hóa thông tin trong bối cảnh vật lý, bất kỳ ai cũng sẽ làm. Có, tôi muốn một thước đo thông tin để có các thuộc tính là vật lý. Vì vậy, những gì sẽ trông như thế nào trong một bối cảnh chung hơn?
Phương trình năng lượng tự do Gibbs (Δ G = Δ H- TΔ S) liên quan đến sự thay đổi năng lượng với sự thay đổi entanpy trừ đi nhiệt độ tuyệt đối nhân với sự thay đổi của entropy. Nhiệt độ là một ví dụ về một loại nội dung thông tin được chuẩn hóa thành công, bởi vì nếu một viên gạch nóng và lạnh được đặt tiếp xúc với nhau trong môi trường kín nhiệt, thì nhiệt sẽ truyền giữa chúng. Bây giờ, nếu chúng ta nhảy vào điều này mà không suy nghĩ quá nhiều, chúng ta nói rằng sức nóng là thông tin. Nhưng nó có phải là thông tin tương đối dự đoán hành vi của một hệ thống. Dòng thông tin cho đến khi đạt đến trạng thái cân bằng, nhưng cân bằng là gì? Nhiệt độ, đó là nhiệt độ, không phải nhiệt như trong vận tốc hạt của các khối hạt nhất định, tôi không nói về nhiệt độ phân tử, tôi đang nói về nhiệt độ gộp của hai viên gạch có thể có khối lượng khác nhau, được làm bằng vật liệu khác nhau, có mật độ khác nhau, v.v. và không ai trong số đó tôi phải biết, tất cả những gì tôi cần biết là nhiệt độ gộp là những gì cân bằng. Do đó, nếu một viên gạch nóng hơn, thì nó có nội dung thông tin tương đối nhiều hơn và khi lạnh hơn, ít hơn.
Bây giờ, nếu tôi được bảo một viên gạch có nhiều entropy hơn viên kia, vậy thì sao? Điều đó, tự nó, sẽ không dự đoán nếu nó sẽ đạt được hoặc mất entropy khi đặt tiếp xúc với một viên gạch khác. Vì vậy, entropy một mình là một biện pháp thông tin hữu ích? Có, nhưng chỉ khi chúng ta so sánh cùng một viên gạch với chính nó, thì thuật ngữ "tự thông tin".
Từ đó đưa ra hạn chế cuối cùng: Để sử dụng phân kỳ KL, tất cả các viên gạch phải giống hệt nhau. Do đó, điều khiến AIC trở thành một chỉ số không điển hình là nó không khả chuyển giữa các tập dữ liệu (ví dụ: các khối hình khác nhau), đây không phải là một đặc tính mong muốn có thể được giải quyết bằng cách bình thường hóa nội dung thông tin. Là phân kỳ tuyến tính KL? Có thể có có thể không. Tuy nhiên, điều đó không quan trọng, chúng ta không cần phải giả sử tuyến tính để sử dụng AIC, và, ví dụ, bản thân entropy tôi không nghĩ là liên quan tuyến tính với nhiệt độ. Nói cách khác, chúng ta không cần một số liệu tuyến tính để sử dụng các phép tính entropy.
Một nguồn thông tin tốt về AIC là trong luận án này . Về mặt bi quan, điều này nói, "Bản thân nó, giá trị của AIC cho một tập dữ liệu nhất định không có ý nghĩa gì." Về mặt lạc quan, điều này nói rằng các mô hình có kết quả chặt chẽ có thể được phân biệt bằng cách làm mịn để thiết lập khoảng tin cậy, và nhiều hơn nữa.