Nghịch lý trong lựa chọn mô hình (AIC, BIC, để giải thích hoặc dự đoán?)


18

Đọc cuốn "Để giải thích hay dự đoán" của Galit Shmueli (2010), tôi rất bối rối trước một mâu thuẫn rõ ràng. Có ba cơ sở,

  1. Lựa chọn mô hình dựa trên AIC so với BIC (cuối trang 300 - bắt đầu trang 301): chỉ cần đặt, AIC nên được sử dụng để chọn mô hình dự đoán trong khi BIC nên được sử dụng để chọn mô hình để giải thích . Ngoài ra (không phải trong bài viết trên), chúng tôi biết rằng trong một số điều kiện, BIC chọn mô hình thực sự trong số các mô hình ứng cử viên; mô hình thực sự là những gì chúng ta tìm kiếm trong mô hình giải thích (cuối trang 293).
  2. Các số liệu đơn giản: AIC sẽ chọn một mô hình lớn hơn BIC cho các mẫu có kích thước 8 hoặc lớn hơn (thỏa mãn do các hình phạt phức tạp khác nhau trong AIC so với BIC).ln(n)>2
  3. Các "true" mô hình (tức là mô hình với các hồi quy chính xác và các hình thức chức năng đúng nhưng hệ số không hoàn hảo ước tính) có thể không phải là mô hình tốt nhất để dự đoán (p 307.): Một mô hình hồi quy với một yếu tố dự báo mất tích có thể là một mô hình dự báo tốt hơn - việc giới thiệu sai lệch do yếu tố dự đoán bị thiếu có thể bị vượt trội do giảm phương sai do ước lượng không chính xác.

Điểm 1. và 2. đề xuất rằng các mô hình lớn hơn có thể tốt hơn để dự đoán hơn các mô hình khác biệt hơn. Trong khi đó, điểm 3. đưa ra một ví dụ ngược lại trong đó một mô hình khác biệt hơn sẽ tốt hơn cho dự đoán so với mô hình lớn hơn. Tôi thấy khó hiểu.

Câu hỏi:

  1. Làm thế nào có thể mâu thuẫn rõ ràng giữa các điểm {1. và 2.} và 3. được giải thích / giải quyết?
  2. Theo quan điểm 3., bạn có thể đưa ra lời giải thích trực quan về lý do tại sao và làm thế nào một mô hình lớn hơn được AIC chọn thực sự tốt hơn để dự đoán hơn là một mô hình khác biệt hơn được BIC chọn?

2
Tôi không có nghịch lý / mâu thuẫn. AIC là hiệu quả (giảm thiểu bất thường các lỗi dự đoán dự kiến) và BIC là nhất quán (không có triệu chứng chọn thứ tự thực sự). Điểm 3) nói rằng sự thiên vị có thể bị vượt trội bởi phương sai. Rõ ràng không có gì đảm bảo rằng cái này tốt hơn cái kia trong một mẫu nhất định. Vì vậy, "nghịch lý" của bạn dường như là đối với một mẫu nhất định, AIC có thể không phù hợp nhất để dự đoán, điều này không có gì bất ngờ. Đối với quý 2 của bạn: nếu mức tăng sai lệch do mô hình nhỏ hơn của BIC gây ra lớn hơn mức tăng phương sai trong AIC lớn hơn, AIC sẽ tốt hơn.
hejseb

2
Tôi sẽ đề nghị bạn xem các chương đầu tiên trong "Lựa chọn mô hình và lấy trung bình mô hình" của Nils Hjort và Gerda Claeskens, có thể điều đó sẽ làm sáng tỏ mọi thứ.
hejseb

Câu trả lời:


1

Chúng không được thực hiện trong cùng một bối cảnh; điểm 1 và 2 có bối cảnh khác nhau. Đối với cả AIC và BIC, lần đầu tiên khám phá sự kết hợp của các tham số trong đó số mang lại các chỉ số tốt nhất (Một số tác giả có chứng động kinh phù hợp khi tôi sử dụng chỉ mục từtrong ngữ cảnh này. Bỏ qua chúng hoặc tra cứu chỉ mục trong từ điển.) Trong điểm 2, AIC là mô hình giàu hơn, trong đó phong phú hơn có nghĩa là chọn các mô hình có nhiều tham số hơn, đôi khi, bởi vì mô hình AIC tối ưu thường có cùng số mô hình tham số như BIC lựa chọn. Nghĩa là, nếu AIC và BIC chọn các mô hình có số lượng tham số CÙNG thì yêu cầu là AIC sẽ tốt hơn cho dự đoán so với BIC. Tuy nhiên, điều ngược lại có thể xảy ra nếu BIC tối đa hóa với một mô hình tham số ít hơn được chọn (nhưng không có bảo đảm). Sober (2002) đã kết luận rằng AIC đo lường độ chính xác dự đoán trong khi BIC đo lường mức độ phù hợp, trong đó độ chính xác dự đoán có thể có nghĩa là dự đoán y bên ngoài phạm vi giá trị cực trị của x. Khi ở bên ngoài, thường thì một AIC kém tối ưu hơn có các tham số dự đoán yếu bị giảm sẽ dự đoán tốt hơn các giá trị ngoại suy so với chỉ số AIC tối ưu từ nhiều tham số trong mô hình đã chọn. Tôi lưu ý rằng việc thông qua AIC và ML không làm giảm nhu cầu kiểm tra lỗi ngoại suy, đây là một thử nghiệm riêng cho các mô hình. Điều này có thể được thực hiện bằng cách giữ lại các giá trị cực đoan từ tập hợp "đào tạo" và tính toán lỗi giữa mô hình "sau đào tạo" ngoại suy và dữ liệu bị giữ lại.

Bây giờ BIC được cho là một công cụ dự đoán lỗi nhỏ hơn của các giá trị y trong các giá trị cực trị của phạm vi x . Cải thiện mức độ phù hợp thường đi kèm với giá của độ lệch của hồi quy (đối với phép ngoại suy), trong đó lỗi được giảm bằng cách đưa ra độ lệch đó. Điều này, ví dụ, thường sẽ làm phẳng độ dốc để phân chia dấu hiệu của các câu thơ trung bình bên tráif(x)yphần dư (nghĩ về phần dư âm hơn ở một bên và phần dư dương hơn ở bên kia) do đó làm giảm tổng sai số. Vì vậy, trong trường hợp này, chúng tôi đang yêu cầu giá trị y tốt nhất được cung cấp một giá trị x và đối với AIC, chúng tôi yêu cầu chặt chẽ hơn về mối quan hệ chức năng tốt nhất giữa x và y. Ví dụ, một điểm khác biệt giữa BIC là các lựa chọn tham số khác bằng nhau, sẽ có hệ số tương quan tốt hơn giữa mô hình và dữ liệu và AIC sẽ có lỗi ngoại suy tốt hơn được đo là lỗi giá trị y cho giá trị x ngoại suy đã cho.

Điểm 3 là một tuyên bố đôi khi trong một số điều kiện

  • khi dữ liệu là rất ồn ào (lớn );σ

  • khi các giá trị tuyệt đối thực sự của các tham số ngoài trái (trong
    ví dụ của chúng tôi ) là nhỏ;β2

  • khi các yếu tố dự đoán có mối tương quan cao; và

  • khi kích thước mẫu nhỏ hoặc phạm vi của các biến trái là nhỏ.

Trong thực tế, một dạng chính xác của một phương trình không có nghĩa là phù hợp với nó sẽ mang lại các giá trị tham số chính xác vì nhiễu và càng nhiều nhiễu càng tốt. Điều tương tự cũng xảy ra với R so với R được điều chỉnh và tính cộng tác cao. Đó là, đôi khi khi một tham số được thêm vào điều chỉnh R xuống cấp trong khi R cải thiện. 22 2222

Tôi sẽ nhanh chóng chỉ ra rằng những tuyên bố này là lạc quan. Thông thường, các mô hình là sai và thường một mô hình tốt hơn sẽ thực thi một định mức không thể được sử dụng với AIC hoặc BIC hoặc cấu trúc dư sai được áp dụng cho ứng dụng của họ và cần có các biện pháp thay thế. Trong công việc của tôi, đây luôn là trường hợp.


1
Tôi không chắc chắn bạn đang trả lời các câu hỏi. Tôi nhận thức được những hạn chế chung của tiêu chí thông tin, nhưng đó không phải là điều tôi đang hỏi về. Hơn nữa, tôi không hiểu quan điểm của bạn nếu AIC và BIC có số lượng tham số CÙNG thì yêu cầu là AIC sẽ tốt hơn cho dự đoán so với BIC . Khi các mô hình thay thế có cùng số lượng tham số, so sánh AIC và BIC sẽ so sánh khả năng so sánh và cả AIC và BIC sẽ chọn cùng một phương án. Bạn cũng có thể giải thích những gì bạn muốn nói về một mô hình tốt hơn sẽ thực thi một quy tắc không thể được sử dụng với AIC hoặc BIC ?
Richard Hardy

Tiếp tục: Miễn là chúng ta có khả năng và mức độ tự do, chúng ta có thể tính AIC và BIC.
Richard Hardy

@RichardHardy Đúng: Miễn là chúng ta có khả năng và mức độ tự do, chúng ta có thể tính AIC và BIC. Tuy nhiên, phép tính sẽ không tối ưu và sai lệch nếu phần dư là Student's-T và chúng tôi chưa sử dụng AIC và BIC cho Student's-T. Không giống như Student-T, có các bản phân phối dư mà ML có thể không được công bố, ví dụ Gamma, Beta, v.v.
Carl

Cảm ơn bạn đã làm rõ! Tôi tin rằng nên tồn tại một câu trả lời cho các câu hỏi ở trên khá đơn giản và chung chung. Cụ thể hơn, tôi không nghĩ rằng nó cần liên quan đến các trường hợp "xấu xí" và thất bại của AIC và BIC. Ngược lại, tôi cảm thấy nên có một trường hợp khá cơ bản có thể minh họa tại sao nghịch lý chỉ rõ ràng hơn là thực tế. Đồng thời, đoạn thứ hai của bạn dường như đi theo hướng ngược lại. Không phải là nó sẽ không có giá trị trong bản thân nó, nhưng tôi sợ nó có thể làm chúng ta mất tập trung khỏi những câu hỏi thực sự tiềm ẩn ở đây.
Richard Hardy

@RichardHardy Thường thì câu hỏi thực tế là khó hiểu đối với AIC. Ví dụ, so sánh các mô hình giống nhau hoặc khác nhau với các định mức khác nhau và / hoặc biến đổi dữ liệu hoặc phân tích các định mức phức tạp, ví dụ: giảm lỗi chính quy hóa Tikhonov của một tham số dẫn xuất, nghịch đảo chung, v.v ... Điều này cần được đề cập cũng như ai đó sử dụng AIC , BIC không chính xác.
Carl
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.