Để lấy trung bình mô hình GLM, chúng ta có tính trung bình các dự đoán trên thang đo liên kết hoặc phản hồi không?


12

Để tính toán các dự đoán trung bình theo mô hình trên thang đo phản hồi của GLM, điều này là "chính xác" và tại sao?

  1. Tính toán dự đoán trung bình của mô hình trên thang đo liên kết và sau đó chuyển đổi ngược lại thành thang đo phản hồi, hoặc
  2. Quay lại chuyển đổi dự đoán thành thang đo phản hồi và sau đó tính trung bình mô hình

Các dự đoán gần nhưng không bằng nếu mô hình là GLM. Các gói R khác nhau cung cấp tùy chọn cho cả hai (với các mặc định khác nhau). Một số đồng nghiệp đã lập luận mạnh mẽ rằng # 1 là sai vì "mọi người đều làm số 2". Trực giác của tôi nói rằng # 1 là "chính xác" vì nó giữ tất cả các tuyến tính toán tuyến tính (số 2 trung bình những thứ không nằm trên thang đo tuyến tính). Một mô phỏng đơn giản cho thấy # 2 có MSE rất (rất!) Nhỏ hơn một chút so với # 1. Nếu # 2 là chính xác, lý do là gì? Và, nếu # 2 là chính xác, tại sao lý do của tôi (giữ tuyến tính toán tuyến tính) lý luận kém?

Chỉnh sửa 1: Tính toán các phương tiện biên qua các cấp độ của một yếu tố khác trong GLM là một vấn đề tương tự với câu hỏi mà tôi đang hỏi ở trên. Russell Lenth tính toán các phương tiện cận biên của các mô hình GLM bằng cách sử dụng "thời gian" (lời nói của anh ta) số 1 (trong gói emmeans) và lập luận của anh ta giống với trực giác của tôi.

Chỉnh sửa 2: Tôi đang sử dụng tính trung bình của mô hình để tham khảo lựa chọn thay thế cho lựa chọn mô hình trong đó dự đoán (hoặc hệ số) được ước tính là trung bình có trọng số trên tất cả hoặc một tập hợp các mô hình lồng nhau "tốt nhất" (xem tài liệu tham khảo và gói R bên dưới) .

Cho các mô hình lồng nhau , trong đó η m i là dự đoán tuyến tính (trong không gian liên kết) cho cá nhân i cho mô hình mw m là trọng số cho mô hình m , dự đoán trung bình mô hình sử dụng số 1 ở trên (trung bình trên liên kết tỷ lệ và sau đó quay lại theo thang đo phản hồi) là:MηTôimTôimwmm

Y^Tôi= =g-1(Σm= =1MwmηTôim)

và dự đoán trung bình theo mô hình sử dụng số 2 ở trên (biến đổi ngược lại tất cả các dự đoán và sau đó trung bình trên thang đo phản hồi) là:M

Y^Tôi= =Σm= =1Mwmg-1(ηTôim)

Một số phương pháp trung bình mô hình Bayesian và thường xuyên là:

  • Hoeting, JA, Madigan, D., Raftery, AE và Volinsky, CT, 1999. Mô hình Bayes trung bình: một hướng dẫn. Khoa học thống kê, tr.382-401.

  • Burnham, KP và Anderson, DR, 2003. Lựa chọn mô hình và suy luận đa mô hình: một cách tiếp cận lý thuyết thông tin thực tế. Khoa học & Truyền thông kinh doanh Springer.

  • Hansen, BE, 2007. Mô hình bình phương nhỏ nhất tính trung bình. Kinh tế lượng, 75 (4), tr.1175-1189.

  • Claeskens, G. và Hjort, NL, 2008. Trung bình lựa chọn mô hình và mô hình. Sách Cambridge.

Các gói R bao gồm BMA , MuMIn , BASAICcmodavg . (Lưu ý: đây không phải là câu hỏi về sự khôn ngoan của mô hình - tính trung bình tổng quát hơn.)


1
Tôi nghi ngờ lý do câu hỏi của bạn không nhận được câu trả lời là những người đọc khác, như tôi, không hiểu câu hỏi của bạn. Ý bạn là gì chính xác bởi "trung bình mô hình"? Vui lòng mô tả một bối cảnh chi tiết để chúng tôi hiểu vấn đề mà bạn đang cố gắng giải quyết. Theo như tôi có thể thấy, gói emmeans không dự đoán trung bình từ các mô hình khác nhau.
Gordon Smyth

1
Cảm ơn bạn đã hỏi điều này và tôi có thể thấy rằng việc thêm ghi chú Russell Lenth gây nhầm lẫn cho câu hỏi của tôi. Tôi đã cố gắng làm rõ điều này ở trên. Gói emmeans sẽ tính toán các phương tiện biên và SE qua các cấp độ của một yếu tố khác và các thống kê này được tính toán trên thang đo liên kết và sau đó được chuyển đổi ngược lại. Xem phần "Mô hình là hướng dẫn tốt nhất của chúng tôi" .
JWalker

Tôi thực sự quan tâm đến bất kỳ câu trả lời cho câu hỏi này. Trong khi đó, một bình luận. Kết quả MSE đó được tính theo thang đo chuyển đổi ngược. Tôi cá rằng với cùng kết quả mô phỏng, MSE, khi được tính theo thang liên kết, sẽ nhỏ hơn với # 1 so với # 2. Lý do là giá trị trung bình mẫu là ước lượng bình phương nhỏ nhất của trung bình dân số, thậm chí trên thang đo sai.
Nga thứ mười

Câu trả lời:


6

Cách tối ưu để kết hợp các công cụ ước tính hoặc dự đoán phụ thuộc vào chức năng mất mà bạn đang cố gắng giảm thiểu (hoặc chức năng tiện ích bạn đang cố gắng tối đa hóa).

Nói chung, nếu hàm mất mát đo lường các lỗi dự đoán trên thang đo phản hồi, thì tính trung bình của các yếu tố dự đoán trên thang đo phản hồi là chính xác. Ví dụ, nếu bạn đang tìm cách giảm thiểu lỗi bình phương dự đoán theo thang đo phản hồi, thì công cụ dự đoán trung bình sau sẽ tối ưu và tùy thuộc vào giả định mô hình của bạn, có thể tương đương với dự đoán trung bình trên thang đo phản hồi.

Lưu ý rằng tính trung bình trên thang đo dự báo tuyến tính có thể hoạt động rất kém đối với các mô hình rời rạc. Giả sử rằng bạn đang sử dụng hồi quy logistic để dự đoán xác suất của biến phản ứng nhị phân. Nếu bất kỳ mô hình nào đưa ra xác suất ước tính bằng 0, thì bộ dự đoán tuyến tính cho mô hình đó sẽ bị trừ vô cùng. Lấy trung bình vô cực với bất kỳ số lượng giá trị hữu hạn nào sẽ vẫn là vô hạn.

Bạn đã tham khảo các tài liệu tham khảo mà bạn liệt kê? Tôi chắc chắn rằng Hoeting et al (1999) chẳng hạn thảo luận về các hàm mất mát, mặc dù có lẽ không chi tiết lắm.


1
Thông minh. Cảm ơn phản hồi này (Tôi hoan nghênh những người khác!). Tôi giả định rằng "khi đó các yếu tố dự đoán trung bình có khả năng là tối ưu hoặc gần với nó" là các yếu tố dự đoán trung bình trên thang đo phản ứng. Các lưu ý logistic là đặc biệt hữu ích.
JWalker

1
@rvl Về tính tuyến tính của hàm mất mát, tôi đã suy nghĩ về chức năng ảnh hưởng của tổn thất. Tôi đồng ý rằng đó là một chút khó hiểu, vì vậy tôi đã chỉnh sửa ý kiến ​​của mình. Tôi phải không đồng ý với những nhận xét khác của bạn. GLM được ước tính bằng ML, không phải do mất bình phương lỗi. Mặc dù có tên, thuật toán IRLS phổ biến cho GLM không giảm thiểu một tổng bình phương và biến làm việc IRLS liên quan đến phần dư được chuẩn hóa trên thang đo phản hồi, không phải thang đo liên kết. Trong mọi trường hợp, ước tính và dự đoán là không giống nhau và không cần phải có các hàm mất giống nhau.
Gordon Smyth

@rvl Chính xác các giá trị được trang bị bằng 0 xảy ra thường xuyên trong hồi quy logistic và đã được thảo luận trên diễn đàn này nhiều lần.
Gordon Smyth

@rvl Mất mát không được đánh giá theo thang điểm liên kết. Cuộc thảo luận này không phải là nơi thích hợp để tôi cung cấp cho bạn một hướng dẫn về GLM - thay vào đó tôi giới thiệu bạn với cuốn sách về GLM mà Springer sẽ xuất bản trong khoảng một tháng. Cuộc thảo luận này cũng không phải là nơi thích hợp để bạn đưa ra câu trả lời thay thế cho câu hỏi ban đầu. Viết một câu trả lời thích hợp nếu bạn muốn làm điều đó.
Gordon Smyth

Đây là đường dẫn đến cuốn sách của chúng tôi về GLM: doi.org/10.1007/978-1-4419-0118-7
Gordon Smyth
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.