Chẩn đoán nào có thể xác nhận việc sử dụng một họ GLM cụ thể?


19

Điều này có vẻ rất cơ bản, nhưng tôi luôn bị mắc kẹt tại điểm này

Hầu hết các dữ liệu tôi xử lý là không bình thường và hầu hết các phân tích dựa trên cấu trúc GLM. Đối với phân tích hiện tại của tôi, tôi có một biến phản hồi là "tốc độ đi bộ" (mét / phút). Thật dễ dàng để tôi xác định rằng tôi không thể sử dụng OLS, nhưng sau đó, tôi rất không chắc chắn trong việc quyết định gia đình nào (Gamma, Weibull, v.v.) là phù hợp!

Tôi sử dụng Stata và xem xét các chẩn đoán như phần dư và độ không đồng nhất, phần dư so với giá trị được trang bị, v.v.

Tôi biết rằng dữ liệu đếm có thể ở dạng tỷ lệ (ví dụ: tỷ lệ mới mắc) và đã sử dụng gamma (tương tự với các mô hình nhị thức âm tính rời rạc quá mức), nhưng chỉ muốn một "khẩu súng hút thuốc" nói CÓ, BẠN CÓ QUYỀN GIA ĐÌNH. Là nhìn vào phần dư được tiêu chuẩn hóa so với các giá trị được trang bị là cách duy nhất và tốt nhất để làm điều này? Tôi cũng muốn sử dụng một mô hình hỗn hợp để tính toán một số thứ bậc trong dữ liệu, nhưng trước tiên cần phải sắp xếp những gì gia đình mô tả đúng nhất về biến trả lời của tôi.

Bất kỳ trợ giúp đánh giá cao. Ngôn ngữ Stata đặc biệt được đánh giá cao!


4
" Tôi muốn một" khẩu súng hút thuốc "nói CÓ, BẠN CÓ GIA ĐÌNH QUYỀN " - sẽ không có gì cho bạn biết điều này. Điều tốt nhất bạn có thể hy vọng là một gia đình không rõ ràng sai. Có nhiều cách bạn có thể chọn một gia đình phân phối, nhưng nói chung, nó có xu hướng liên quan đến sự kết hợp giữa các cân nhắc tiên nghiệm hoặc lý thuyết và các chỉ dẫn từ chính dữ liệu.
Glen_b -Reinstate Monica

Câu trả lời:


14

Tôi có một số lời khuyên:

(1) Làm thế nào phần dư phải so sánh với sự phù hợp không phải lúc nào cũng rõ ràng, vì vậy thật tốt khi làm quen với chẩn đoán cho các mô hình cụ thể. Trong các mô hình hồi quy logistic, ví dụ, thống kê Hosmer-Lemeshow được sử dụng để đánh giá mức độ phù hợp; giá trị đòn bẩy có xu hướng nhỏ trong đó tỷ lệ cược ước tính là rất lớn, rất nhỏ hoặc thậm chí là khoảng; & Sớm.

(2) Đôi khi một họ mô hình có thể được xem là trường hợp đặc biệt của một mô hình khác, vì vậy bạn có thể sử dụng kiểm tra giả thuyết trên một tham số để giúp bạn chọn. Ví dụ như số mũ so với Weibull.

(3) Tiêu chí thông tin của Akaike rất hữu ích trong việc lựa chọn giữa các mô hình khác nhau, bao gồm lựa chọn giữa các gia đình khác nhau.

(4) Kiến thức lý thuyết / thực nghiệm về những gì bạn đang lập mô hình thu hẹp lĩnh vực của các mô hình hợp lý.

Nhưng không có cách nào tự động tìm gia đình 'đúng'; dữ liệu thực tế có thể đến từ các bản phân phối phức tạp như bạn muốn, và độ phức tạp của các mô hình đáng để thử phù hợp tăng theo số lượng dữ liệu bạn có. Đây là một phần và phần của tuyên bố của Box rằng không có mô hình nào là đúng nhưng một số là hữu ích.

Nhận xét của Re @ gung: có vẻ như thử nghiệm Hosmer-Lemeshow thường được sử dụng là (a) nhạy cảm đáng ngạc nhiên với sự lựa chọn thùng, & (b) thường kém mạnh mẽ hơn so với một số thử nghiệm khác chống lại một số loại giả thuyết thay thế có liên quan. Điều đó không làm mất điểm (1): cũng tốt để cập nhật.


Cảm ơn! Đề xuất của bạn ngắn gọn và chính xác. Tôi bị giới hạn trong các gia đình tôi có thể sử dụng do cấu trúc của biến phản ứng của tôi (tích cực, liên tục, nhưng rất sai lệch). Trong số các gia đình theo cấp số nhân, có vẻ như gamma thực sự là lựa chọn duy nhất. Trong khi đó, tôi đã tìm thấy một số công cụ hữu ích của NJ Cox như xuất hiện trong Stata Jounal 5 (2): 259-273 - gammafit (ước tính hình dạng và tham số tỷ lệ) và dpplot cho phép phủ lớp biểu đồ xác suất mật độ và biến phản ứng của tôi (có thể được thực hiện với nhiều bản phân phối và cho phép tôi kết hợp gia đình tốt nhất với dữ liệu của mình). Cảm ơn các suggs khác nữa!
RLang

1
Lưu ý rằng thử nghiệm GoF của Hosmer-Lemeshow đã được chứng minh là phụ thuộc vào việc sử dụng / không đáng tin cậy.
gung - Phục hồi Monica

@Gung, Nó rõ ràng phụ thuộc vào việc sử dụng binning - không lý tưởng, nhưng không chắc chắn đó là một vấn đề lớn trừ khi bạn bắt đầu loay hoay với các kết quả để thử kết quả mà bạn muốn. Làm thế nào nó không đáng tin cậy và những xét nghiệm khác là tốt hơn?
Scortchi - Phục hồi Monica


1
Bạn đúng rằng "không hợp lệ" quá mạnh; Mặc dù vậy, tôi chỉ nói "không đáng tin cậy" và mặc dù sử dụng "lỗi thời".
gung - Phục hồi Monica

8

Bạn có thể tìm thấy nó thú vị để đọc các họa tiết (giới thiệu bằng tay) cho gói R fitdistrplus. Tôi nhận ra rằng bạn thích làm việc ở Stata, nhưng tôi nghĩ rằng họa tiết sẽ đủ tự giải thích rằng bạn có thể hiểu được một số hiểu biết về quá trình suy luận các gia đình phân phối từ dữ liệu. Bạn có thể sẽ có thể thực hiện một số ý tưởng trong Stata thông qua mã của riêng bạn. Cụ thể, tôi nghĩ rằng biểu đồ Cullen và Frey, nếu nó được / có thể được thực hiện trong Stata, có thể hữu ích cho bạn.


Tôi đã xem xét lại vấn đề này một lần nữa và đã chuyển sang R và đang sử dụng Zuur và Ieno làm hướng dẫn. Vẫn còn nhiều vấn đề, nhưng nói chung tôi nghĩ bằng cách sử dụng varIdent chẩn đoán mô hình của tôi trông giống như chúng có 'sự không đồng nhất nhỏ'. Việc vẽ các phần dư chống lại được trang bị có vẻ tốt, việc chống lại mỗi hiệp phương sai cung cấp một số kết quả thú vị cho một trong các biến mô hình của tôi (độ cao) - chủ yếu là một hàm có cỡ mẫu nhỏ ở độ cao. Cảm ơn bình luận của bạn về fitdistrplus. Bây giờ tôi đang sử dụng R và Rstudio (thích nó!) Sẽ rất tiện lợi!
RLang

1
Liên kết bị hỏng. Đây có phải là hướng dẫn giới thiệu mà bạn đang nói về? cran.r-project.org/doc/contrib/Ricci-distribution-en.pdf Hoặc là cái này: cran.r-project.org/web/packages/fitdistrplus/vignettes/ tựa
emschorsch

Liên kết sau dường như là một phiên bản khác của họa tiết mà tôi đã đề cập.
gung - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.