Tôi đang mô hình hóa một số dữ liệu mà tôi nghĩ rằng tôi có hai hiệu ứng ngẫu nhiên chéo. Nhưng bộ dữ liệu không được cân bằng và tôi không chắc cần phải làm gì để tính đến nó.
Dữ liệu của tôi là một tập hợp các sự kiện. Một sự kiện xảy ra khi khách hàng gặp nhà cung cấp để thực hiện một nhiệm vụ, thành công hoặc không. Có hàng ngàn khách hàng và nhà cung cấp, và mỗi khách hàng & nhà cung cấp tham gia vào các sự kiện khác nhau (khoảng 5 đến 500). Mỗi khách hàng và nhà cung cấp có một mức độ kỹ năng và cơ hội thành công là một chức năng của các kỹ năng của cả hai người tham gia. Không có sự chồng chéo giữa khách hàng và nhà cung cấp.
Tôi quan tâm đến sự khác biệt tương ứng của dân số khách hàng và nhà cung cấp, vì vậy chúng tôi có thể biết nguồn nào có ảnh hưởng lớn hơn đến tỷ lệ thành công. Tôi cũng muốn biết các giá trị cụ thể của các kỹ năng giữa khách hàng và nhà cung cấp mà chúng tôi thực sự có dữ liệu để xác định khách hàng hoặc nhà cung cấp tốt nhất / tồi nhất.
Ban đầu, tôi muốn giả định rằng xác suất thành công chỉ được điều khiển bởi các cấp độ kỹ năng kết hợp của khách hàng và nhà cung cấp, không có hiệu ứng cố định nào khác. Vì vậy, giả sử x là một yếu tố cho khách hàng và y là một yếu tố cho nhà cung cấp, thì trong R (sử dụng gói lme4) tôi có một mô hình được chỉ định là:
glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)
Một vấn đề là khách hàng không được phân phối đồng đều giữa các nhà cung cấp. Khách hàng có kỹ năng cao hơn có nhiều khả năng được kết hợp với các nhà cung cấp kỹ năng cao hơn. Sự hiểu biết của tôi là một hiệu ứng ngẫu nhiên phải không tương thích với bất kỳ dự đoán nào khác trong mô hình, nhưng tôi không chắc làm thế nào để giải thích nó.
Ngoài ra, một số khách hàng và nhà cung cấp có rất ít sự kiện (dưới 10), trong khi những người khác có nhiều sự kiện (lên tới 500), do đó, có một lượng lớn dữ liệu chúng tôi có trên mỗi người tham gia. Lý tưởng là điều này sẽ được phản ánh trong một "khoảng tin cậy" xung quanh ước tính kỹ năng của từng hạt (mặc dù tôi nghĩ rằng khoảng tin cậy không hoàn toàn chính xác ở đây).
Là các hiệu ứng ngẫu nhiên chéo sẽ có vấn đề vì dữ liệu không cân bằng? Nếu vậy, một số cách tiếp cận khác tôi nên xem xét là gì?