Hiểu tiêu chí AIC và Schwarz


13

Tôi đang chạy một mô hình logistic. Bộ dữ liệu mô hình thực tế có hơn 100 biến nhưng tôi đang chọn một bộ dữ liệu thử nghiệm trong đó có khoảng 25 biến. Trước đó tôi cũng đã thực hiện một bộ dữ liệu có 8-9 biến. Tôi được cho biết rằng các giá trị AIC và SC có thể được sử dụng để so sánh mô hình. Tôi quan sát thấy rằng mô hình có giá trị SC cao hơn ngay cả khi biến có giá trị p thấp (ví dụ 0053). Theo trực giác của tôi, một mô hình có các biến có mức ý nghĩa tốt sẽ dẫn đến các giá trị SC và AIC thấp. Nhưng điều đó không xảy ra. Ai đó có thể xin vui lòng làm rõ điều này. Tóm lại tôi muốn hỏi những câu hỏi sau:

  1. Số lượng biến có liên quan gì đến SC AIC không?
  2. Tôi nên tập trung vào giá trị p hoặc giá trị SC AIC thấp?
  3. Các cách điển hình để giảm giá trị SC AIC là gì?

Câu trả lời:


15

Thật khó để trả lời câu hỏi của bạn một cách chính xác, nhưng dường như với tôi bạn đang so sánh hai tiêu chí (tiêu chí thông tin và giá trị p) không đưa ra cùng một thông tin. Đối với tất cả các tiêu chí thông tin (tiêu chí AIC hoặc Schwarz), chúng càng nhỏ thì sự phù hợp của mô hình của bạn càng tốt (từ góc độ thống kê) vì chúng phản ánh sự đánh đổi giữa sự thiếu phù hợp và số lượng tham số trong mô hình ; ví dụ: tiêu chí Akaike đọc , trong đó k-2đăng nhập()+2kklà số lượng tham số. Tuy nhiên, không giống như AIC, SC là nhất quán: xác suất chọn không chính xác một mô hình lớn hơn hội tụ về 0 khi kích thước mẫu tăng. Chúng được sử dụng để so sánh các mô hình, nhưng bạn cũng có thể quan sát một mô hình với các yếu tố dự đoán quan trọng mang lại sự phù hợp kém (độ lệch dư lớn). Nếu bạn có thể đạt được một mô hình khác với AIC thấp hơn, thì đây là gợi ý về một mô hình kém. Và, nếu kích thước mẫu của bạn lớn, giá trị vẫn có thể thấp mà không cung cấp nhiều thông tin về sự phù hợp với mô hình. Ít nhất, hãy xem nếu AIC cho thấy sự giảm đáng kể khi so sánh mô hình với chỉ một phần chặn và mô hình với các hiệp phương sai. Tuy nhiên, nếu sở thích của bạn nằm ở việc tìm ra tập hợp con dự đoán tốt nhất, bạn chắc chắn phải xem xét các phương pháp để lựa chọn biến.p

Tôi sẽ đề nghị xem xét hồi quy bị phạt , cho phép thực hiện lựa chọn biến để tránh các vấn đề quá mức. Điều này được thảo luận trong Chiến lược mô hình hồi quy của Frank Harrell (trang 207 ff.), Hoặc Moons và cộng sự, ước tính khả năng tối đa của Penalized để điều chỉnh trực tiếp các mô hình dự đoán chẩn đoán và tiên lượng cho chứng quá mức: một ví dụ lâm sàng , J Clin Epid (2004) 57 (57) 12).

Xem thêm các gói Design ( lrm) và stepPlr ( step.plr) hoặc gói bị phạt . Bạn có thể duyệt các câu hỏi liên quan về lựa chọn biến trên SE này.


Xin chào chl, Cảm ơn đã trả lời..Tôi thừa nhận rằng tôi đã nhận được một số thông tin từ câu trả lời của bạn..Hãy để tôi hiểu và sau đó bạn có thể nhận xét. (1) Tôi nhận được một gợi ý rằng giá trị P có thể giảm nếu kích thước mẫu của bạn lớn ...-- Có phải vậy không ?? Theo hiểu biết của tôi, giá trị p chỉ có thể cho thấy liệu giả thuyết của bạn có bị từ chối hay không. (2) Bây giờ tôi hiểu rằng tôi cần thấy sự khác biệt trong các giá trị AIC chỉ với việc chặn và với các đồng biến. Tôi cho rằng khi chúng tôi nói rằng chúng tôi muốn AIC thấp hơn, chúng tôi có nghĩa là cho cùng một bộ dữ liệu. Tôi nhận được nhân vật nhân vật còn lại trong bình luận của mình vì vậy sẽ bình luận lại sau khi bạn trả lời,
ayush biyani

1
@ayush (1) số liệu thống kê kiểm tra (ví dụ Wald) phụ thuộc vào kích thước mẫu (giảm lỗi tiêu chuẩn khi tăng kích thước mẫu và bạn có thể nhận được giá trị p thấp hơn với mẫu lớn hơn). (2) có, mặc dù AIC có thể được sử dụng để so sánh các mô hình không lồng nhau, ở đây tôi đã nghĩ về nó như một cách để so sánh các mô hình khác nhau về độ phức tạp tăng dần.
chl

cảm ơn một lần nữa..tôi nhận được bản chất của giá trị p bây giờ. Khoảng 5 phút trở lại, tôi đã chạy một mô hình cung cấp cho tôi các giá trị p dưới 0,05 cho tất cả các biến nhưng AIC là 28238.407 chỉ với khả năng chặn và với các biến số 21507.933. Tôi cũng có một trường hợp trong đó AIC là 16035.xy chỉ với đánh chặn và với đồng biến 4234.xy. Ý kiến ​​của bạn so sánh hai trường hợp là gì? Xin lưu ý rằng mô hình thứ hai có các biến khác nhau 25 var trong khi mô hình thứ nhất có 20. biến thứ hai mặc dù có nhiều biến hơn (25 so với 20) có AIC thấp hơn. Mặc dù giá trị p werent 0,05 cho tất cả. Xin đề nghị..thêm để hỏi sau này..Cảm ơn.
ayush biyani

@ayush Thật khó để trả lời về chất lượng mô hình mà không biết các biến được chọn như thế nào. Khoảng cách trong AIC giữa một mô hình chỉ bao gồm một phần chặn và một số đồng biến cung cấp cho bạn một dấu hiệu về "sức mạnh giải thích" của các yếu tố dự đoán đó (độ lệch còn lại dường như giảm đi một mức độ lớn hơn trong trường hợp thứ 2 mà bạn thể hiện và AIC bị phạt vì # tham số như tôi đã nói trong phản hồi của tôi). Đây không phải là một câu trả lời đầy đủ về sự liên quan của những người dự đoán này. Tôi khuyên bạn nên hỏi một câu hỏi cụ thể hơn (IMO), ví dụ về lựa chọn biến trong GLM cho nghiên cứu cụ thể của bạn.
chl

8

Nhóm SC và AIC lại với nhau là SAI . Chúng là những thứ rất khác nhau, mặc dù mọi người lạm dụng chúng rất nhiều. AIC có ý nghĩa khi bạn dự đoán mọi thứ, sử dụng SC trong kịch bản này có thể dẫn đến (không phải tất cả các lần) dẫn đến kết quả sai. Tương tự, nếu bạn quan tâm đến việc lựa chọn mô hình với nguyên tắc phân tích cú pháp (Occam's Razor) SC thì tốt hơn. Tôi không muốn đi sâu vào chi tiết lý thuyết, nhưng tóm lại: SC - tốt cho các mô hình phân tích khi bạn muốn một cái gì đó tương đương với mô hình đơn giản nhất có thể để giải thích dữ liệu của bạn, AIC - Khi bạn muốn dự đoán. AIC không cho rằng mô hình thực sự của bạn nằm trong không gian mô hình giống như SC.

Thứ hai, sử dụng giá trị p và tiêu chí thông tin cùng nhau cũng có thể gây hiểu nhầm như được giải thích bởi chl .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.