Hiệu ứng ngẫu nhiên chéo và dữ liệu không cân bằng


10

Tôi đang mô hình hóa một số dữ liệu mà tôi nghĩ rằng tôi có hai hiệu ứng ngẫu nhiên chéo. Nhưng bộ dữ liệu không được cân bằng và tôi không chắc cần phải làm gì để tính đến nó.

Dữ liệu của tôi là một tập hợp các sự kiện. Một sự kiện xảy ra khi khách hàng gặp nhà cung cấp để thực hiện một nhiệm vụ, thành công hoặc không. Có hàng ngàn khách hàng và nhà cung cấp, và mỗi khách hàng & nhà cung cấp tham gia vào các sự kiện khác nhau (khoảng 5 đến 500). Mỗi khách hàng và nhà cung cấp có một mức độ kỹ năng và cơ hội thành công là một chức năng của các kỹ năng của cả hai người tham gia. Không có sự chồng chéo giữa khách hàng và nhà cung cấp.

Tôi quan tâm đến sự khác biệt tương ứng của dân số khách hàng và nhà cung cấp, vì vậy chúng tôi có thể biết nguồn nào có ảnh hưởng lớn hơn đến tỷ lệ thành công. Tôi cũng muốn biết các giá trị cụ thể của các kỹ năng giữa khách hàng và nhà cung cấp mà chúng tôi thực sự có dữ liệu để xác định khách hàng hoặc nhà cung cấp tốt nhất / tồi nhất.

Ban đầu, tôi muốn giả định rằng xác suất thành công chỉ được điều khiển bởi các cấp độ kỹ năng kết hợp của khách hàng và nhà cung cấp, không có hiệu ứng cố định nào khác. Vì vậy, giả sử x là một yếu tố cho khách hàng và y là một yếu tố cho nhà cung cấp, thì trong R (sử dụng gói lme4) tôi có một mô hình được chỉ định là:

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

Một vấn đề là khách hàng không được phân phối đồng đều giữa các nhà cung cấp. Khách hàng có kỹ năng cao hơn có nhiều khả năng được kết hợp với các nhà cung cấp kỹ năng cao hơn. Sự hiểu biết của tôi là một hiệu ứng ngẫu nhiên phải không tương thích với bất kỳ dự đoán nào khác trong mô hình, nhưng tôi không chắc làm thế nào để giải thích nó.

Ngoài ra, một số khách hàng và nhà cung cấp có rất ít sự kiện (dưới 10), trong khi những người khác có nhiều sự kiện (lên tới 500), do đó, có một lượng lớn dữ liệu chúng tôi có trên mỗi người tham gia. Lý tưởng là điều này sẽ được phản ánh trong một "khoảng tin cậy" xung quanh ước tính kỹ năng của từng hạt (mặc dù tôi nghĩ rằng khoảng tin cậy không hoàn toàn chính xác ở đây).

Là các hiệu ứng ngẫu nhiên chéo sẽ có vấn đề vì dữ liệu không cân bằng? Nếu vậy, một số cách tiếp cận khác tôi nên xem xét là gì?

Câu trả lời:


4

Đối với dữ liệu không cân bằng, glmer có thể xử lý các nhóm không cân bằng: đó thực sự là điểm phát triển các phương pháp mô hình hỗn hợp so với các ANOVA đo lặp lại được giới hạn trong các thiết kế cân bằng. Bao gồm các khách hàng hoặc nhà cung cấp có ít sự kiện (thậm chí chỉ một) vẫn tốt hơn bỏ qua chúng, vì nó cải thiện ước tính của phương sai còn lại (xem Martin et al. 2011 ).

Nếu bạn muốn sử dụng BLUP ( ranef(model)) làm proxy cho các kỹ năng, bạn thực sự sẽ phải ước tính sự không chắc chắn xung quanh dự đoán điểm của bạn. Điều này có thể được thực hiện trong một khung thường xuyên bằng cách sử dụng ranef(model, postVar=TRUE)hoặc thông qua phân phối sau trong khung Bayes. Tuy nhiên, bạn không nên sử dụng BLUP làm biến phản hồi trong các mô hình hồi quy tiếp theo: xem Hadfield et al. (2010) cho các ví dụ về việc lạm dụng BLUP và các phương pháp khác nhau để tính đến sự không chắc chắn của chúng.

Đối với mối tương quan giữa các kỹ năng giữa khách hàng và nhà cung cấp, sự mất cân bằng này có thể có vấn đề nếu nó rất mạnh, vì nó sẽ ngăn chặn việc ước tính chính xác phương sai do mỗi hiệu ứng ngẫu nhiên. Dường như không có một khung mô hình hỗn hợp nào có thể dễ dàng xử lý mối tương quan giữa các lần chặn ngẫu nhiên (xem ở đây để thể hiện chính thức vấn đề của bạn). Bạn có thể chính xác làm thế nào tương quan là những thành công trung bình của khách hàng và nhà cung cấp?


Cảm ơn bạn rất nhiều vì đã giải quyết một trong những câu hỏi cũ của tôi. Câu trả lời vẫn có liên quan và hướng dẫn và tài liệu tham khảo được đánh giá cao. Xin lỗi nó đã mất quá lâu để tôi nhận thấy nó ở đó! Tôi đã đánh dấu nó giải quyết.
đại tá.triq
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.