Mô hình hỗn hợp với 1 quan sát mỗi cấp


12

Tôi phù hợp với một mô hình hiệu ứng ngẫu nhiên với glmermột số dữ liệu kinh doanh. Mục đích là để phân tích hiệu suất bán hàng của nhà phân phối, có tính đến sự thay đổi trong khu vực. Tôi có các biến sau:

  • distcode: ID nhà phân phối, với khoảng 800 cấp độ
  • region: ID địa lý cấp cao nhất (bắc, nam, đông, tây)
  • zone: địa lý cấp trung được lồng trong region, khoảng 30 cấp trong tất cả
  • territory: địa lý cấp thấp lồng trong zone, khoảng 150 cấp

Mỗi nhà phân phối chỉ hoạt động trong một lãnh thổ. Phần khó khăn là đây là dữ liệu tóm tắt, với một điểm dữ liệu cho mỗi nhà phân phối. Vì vậy, tôi có 800 điểm dữ liệu và tôi đang cố gắng khớp (ít nhất) 800 thông số mặc dù theo kiểu thông thường.

Tôi đã trang bị một mô hình như sau:

glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson)

Điều này chạy mà không có vấn đề, mặc dù nó in một ghi chú:

Số cấp của một yếu tố nhóm cho các hiệu ứng ngẫu nhiên bằng n, số lượng quan sát

Đây có phải là một điều hợp lý để làm? Tôi nhận được ước tính hữu hạn của tất cả các hệ số và AIC cũng không hợp lý. Nếu tôi thử GLMM poisson với liên kết nhận dạng, AIC sẽ tệ hơn nhiều vì vậy liên kết nhật ký ít nhất là một điểm khởi đầu tốt.

Nếu tôi vẽ các giá trị được trang bị so với phản hồi, tôi sẽ nhận được những gì cơ bản là phù hợp hoàn hảo, mà tôi đoán là vì tôi có một điểm dữ liệu cho mỗi nhà phân phối. Điều đó có hợp lý không, hay tôi đang làm điều gì đó hoàn toàn ngớ ngẩn?

Đây là sử dụng dữ liệu trong một tháng. Tôi có thể nhận dữ liệu trong nhiều tháng và nhận được một số sao chép theo cách đó, nhưng tôi phải thêm các thuật ngữ mới cho biến thể theo tháng và các tương tác có thể, đúng không?


ETA: Tôi đã chạy lại mô hình trên, nhưng không có familyđối số (vì vậy chỉ là một LMM gaussian chứ không phải GLMM). Bây giờ lmerđã cho tôi các lỗi sau:

Lỗi trong (hàm (fr, FL, start, REML, verbose): Số cấp của một yếu tố nhóm cho các hiệu ứng ngẫu nhiên phải nhỏ hơn số lượng quan sát

Vì vậy, tôi đoán rằng tôi không làm điều gì đó hợp lý, vì thay đổi gia đình không nên có ảnh hưởng. Nhưng câu hỏi bây giờ là, tại sao nó lại hoạt động ngay từ đầu?

Câu trả lời:


4

Tôi hoàn toàn không đồng ý với cách thực hiện mô hình hỗn hợp trong đó bạn có cùng số lượng nhóm như các quan sát trên cơ sở khái niệm, không có "nhóm", và trên cơ sở tính toán, vì mô hình của bạn sẽ có vấn đề rõ ràng - trong trường hợp của một LMM ít nhất. (Tôi chỉ làm việc với LMM, nó cũng có thể hơi thiên vị. :))

y~N(Xβ,ZDZT+σ2Tôi)Dσ2

(Tôi không hiểu ý của bạn về AIC "hợp lý". AIC nên được tính toán theo nghĩa là mặc dù quá phù hợp với dữ liệu của bạn, bạn vẫn "tính toán một cái gì đó".)

glmeryXβXβ>0glmer

Phần khái niệm: Tôi nghĩ điều này hơi "chủ quan" hơn một chút nhưng cũng đơn giản hơn một chút. Bạn sử dụng hỗn hợp Eff. các mô hình vì về cơ bản bạn đã nhận ra rằng có một số cấu trúc liên quan đến nhóm trong lỗi của bạn. Bây giờ nếu bạn có nhiều nhóm như điểm dữ liệu, sẽ không có cấu trúc nào được nhìn thấy. Bất kỳ sai lệch nào trong cấu trúc lỗi LM của bạn có thể được quy cho một "nhóm" hiện được quy cho điểm quan sát cụ thể (và như vậy bạn kết thúc với một mô hình được trang bị quá mức).

Trong các nhóm quan sát đơn lẻ nói chung có xu hướng hơi lộn xộn; để trích dẫn D.Bates từ danh sách gửi thư r-sig-hỗn hợp mô hình:

Tôi nghĩ bạn sẽ thấy rằng có rất ít sự khác biệt trong mô hình phù hợp cho dù bạn bao gồm hay loại trừ các nhóm quan sát đơn lẻ. Hãy thử nó và xem.


1
đúng là điều này dường như không có ý nghĩa nhiều trong một thiết lập tuyến tính, nhưng nó có thể rất hữu ích trong hồi quy Poisson. Tôi sẽ xem liệu tôi có thể theo dõi một liên kết đến điều mà Ben Bolker đã nói về chủ đề này không (anh ấy là một trong những nhà phát triển của lme4, cùng với Doug Bates).
David J. Harris

Vâng, như tôi đã nói có lẽ tôi thiên vị khi nghĩ về LMM và tôi đã bình luận về "phần khái niệm". Tôi đã giải thích lý do tại sao điều này hoạt động trong trường hợp glmerdù thế nào (mặc dù không quá hạnh phúc với nó).
usεr11852 nói Phục hồi Monic

8

Một mức cho mỗi quan sát có thể rất hữu ích nếu bạn có dữ liệu đếm quá mức làm biến phản hồi của mình. Nó tương đương với việc bạn nói rằng bạn mong đợi dữ liệu đếm của mình đến từ phân phối Po-lognatural, tức là tham số lambda của phân phối Poisson của bạn không được xác định đầy đủ bởi các biến dự đoán trong mô hình của bạn và các khả năng được phân phối một cách hợp lý.

Ben Bolker, một trong những nhà phát triển cho lme4, đã thực hiện hai ví dụ giống như hướng dẫn với điều này. Cái đầu tiên, với dữ liệu tổng hợp, đi sâu vào chi tiết hơn một chút. Bạn có thể tìm thấy một pdf ở đây . Ông cũng đã thực hiện một phân tích dữ liệu khám phá với dữ liệu thực liên quan đến cú (mã pdf và R có sẵn từ đây ).


1
+1. Tôi đồng ý với những gì bạn nói. Như tôi đã đề cập trong bài viết gốc của mình: " phân tán quá mức (...) là cách bạn" giải quyết "vấn đề có nhiều nhóm như quan sát. " Cảm ơn bạn đã đưa ra quan điểm tốt hơn glmertheo cách khái niệm.
usεr11852 nói Phục hồi Monic

1
Cảm ơn các liên kết! Sau khi đọc chúng và xem xét kỹ hơn các giá trị được trang bị từ mô hình của tôi, tôi có ý tưởng tốt hơn về những gì đang diễn ra. Tôi thực sự không nghĩ những gì Ben đang làm là phù hợp với phân tích của tôi. Anh ta đang sử dụng một biến mức quan sát để cho phép quá mức, vì vậy nó giống như một hiệu ứng phiền toái. Đối với phân tích của tôi, distributorlà một hiệu ứng quan tâm: Tôi muốn xem các nhà phân phối hoạt động như thế nào so với nhau khi cho phép các biến khác. Do đó, nó tương đương với một mô hình hỗn hợp tuyến tính thông thường, trong đó quá mức là một mối quan tâm thực sự.
Hồng Ooi
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.