Hãy xem xét một vấn đề phân tích dữ liệu cổ điển trong đó bạn có kết quả và nó liên quan đến một số yếu tố dự đoán . Loại ứng dụng cơ bản trong tâm trí ở đây là
là một số kết quả cấp độ nhóm như tỷ lệ tội phạm trong thành phố .
Các yếu tố dự đoán là các đặc điểm cấp độ nhóm như các đặc điểm nhân khẩu học của thành phố .
Mục tiêu cơ bản là để phù hợp với mô hình hồi quy (có thể có hiệu ứng ngẫu nhiên nhưng quên điều đó ngay bây giờ):
Có một số khó khăn kỹ thuật phát sinh khi một (hoặc nhiều) các yếu tố dự đoán là kết quả của một cuộc khảo sát có các cỡ mẫu khác nhau cho mỗi đơn vị? Ví dụ: giả sử là điểm tóm tắt cho thành phố i là phản hồi trung bình từ một mẫu của các cá nhân từ thành phố i nhưng kích thước mẫu mà các mức trung bình này dựa trên rất khác nhau:
Vì các biến dự đoán không có cùng một ý nghĩa, theo một nghĩa nào đó, đối với mỗi thành phố, tôi sợ rằng việc điều chỉnh các biến này trong mô hình hồi quy như thể tất cả chúng đều "được tạo ra bằng nhau" có thể gây ra một số suy luận sai lệch.
Có một tên cho loại vấn đề này? Nếu vậy, có nghiên cứu về cách xử lý này?
Suy nghĩ của tôi là coi nó như một biến dự đoán được đo bằng lỗi và làm một cái gì đó dọc theo các dòng này nhưng có sự không đồng nhất trong các lỗi đo lường, do đó sẽ rất phức tạp. Tôi có thể nghĩ về điều này sai cách hoặc có thể làm cho điều này phức tạp hơn nó nhưng bất kỳ cuộc thảo luận nào ở đây sẽ hữu ích.