Bạn có thể làm gì khi bạn có các biến dự đoán dựa trên mức trung bình của nhóm với các cỡ mẫu khác nhau?


14

Hãy xem xét một vấn đề phân tích dữ liệu cổ điển trong đó bạn có kết quả Yi và nó liên quan đến một số yếu tố dự đoán . Loại ứng dụng cơ bản trong tâm trí ở đây làXi1,...,Xip

  1. Yi là một số kết quả cấp độ nhóm như tỷ lệ tội phạm trong thành phối .

  2. Các yếu tố dự đoán là các đặc điểm cấp độ nhóm như các đặc điểm nhân khẩu học của thành phố i .

Mục tiêu cơ bản là để phù hợp với mô hình hồi quy (có thể có hiệu ứng ngẫu nhiên nhưng quên điều đó ngay bây giờ):

E(Yi|Xi)=β0+β1Xi1+...+βpXip

Có một số khó khăn kỹ thuật phát sinh khi một (hoặc nhiều) các yếu tố dự đoán là kết quả của một cuộc khảo sát có các cỡ mẫu khác nhau cho mỗi đơn vị? Ví dụ: giả sử là điểm tóm tắt cho thành phố i là phản hồi trung bình từ một mẫu của các cá nhân từ thành phố i nhưng kích thước mẫu mà các mức trung bình này dựa trên rất khác nhau:Xi1ii

CitySample size120210033004553

Vì các biến dự đoán không có cùng một ý nghĩa, theo một nghĩa nào đó, đối với mỗi thành phố, tôi sợ rằng việc điều chỉnh các biến này trong mô hình hồi quy như thể tất cả chúng đều "được tạo ra bằng nhau" có thể gây ra một số suy luận sai lệch.

Có một tên cho loại vấn đề này? Nếu vậy, có nghiên cứu về cách xử lý này?

Suy nghĩ của tôi là coi nó như một biến dự đoán được đo bằng lỗi và làm một cái gì đó dọc theo các dòng này nhưng có sự không đồng nhất trong các lỗi đo lường, do đó sẽ rất phức tạp. Tôi có thể nghĩ về điều này sai cách hoặc có thể làm cho điều này phức tạp hơn nó nhưng bất kỳ cuộc thảo luận nào ở đây sẽ hữu ích.


8
Đây được gọi là vấn đề "lỗi không đồng nhất". (Cụm từ này là một mục tiêu tốt cho tìm kiếm của Google.) Gần đây (2007), Delaigle và Meister đã đề xuất một công cụ ước tính mật độ hạt nhân không định lượng trong một bài báo JASA . Một bản tóm tắt về một số phương pháp tham số (phương pháp của khoảnh khắc và MLE) gợi ý một số cách tiếp cận bổ sung: scTHERirect.com/science/article/pii/S1572312709000045 . (Tôi không đủ quen thuộc với nghiên cứu để cung cấp cho bạn câu trả lời có thẩm quyền về cách xử lý tập dữ liệu cụ thể của bạn.)
whuber

1
@whuber +1 cho cả hai bình luận. Tôi nghĩ rằng "lỗi trong biến" là từ khóa bị thiếu mà tôi đang tìm kiếm. Nếu không ai đưa ra câu trả lời mạnh mẽ dưới đây mà tôi có thể chấp nhận thì tôi sẽ xem xét tài liệu và quay lại để đăng bất cứ điều gì tôi kết thúc như một câu trả lời.
Macro

Câu trả lời:


2

Có thể tải xuống bài báo "Mô hình lỗi biến cấu trúc không đồng nhất với lỗi phương trình" tại trang của tác giả:

http://www.ime.usp.br/~patriota/curriculo-eng.html#Published_ con

về cơ bản, bạn phải tính đến sự thay đổi của cả hai biến để tránh các ước lượng không nhất quán, kiểm tra giả thuyết không đáng tin cậy và khoảng tin cậy.


0

σ2Xiσ2/ninii


Điều đó có vẻ hợp lý mặc dù tôi đã hy vọng tránh phải lập mô hình lỗi đo lường. Nếu tôi đã đi theo hướng đó, bạn sẽ sử dụng gì để ước tính ảnh hưởng của một yếu tố dự đoán được đo bằng lỗi? Tôi đã sử dụng một phương pháp được gọi là SIMEX nhưng điều này có vẻ không phổ biến và tôi tự hỏi liệu có các tùy chọn khác không.
Macro

@Macro Tôi không quen với phần mềm cụ thể để mô hình hồi quy với hàm phương sai để ước tính.
Michael R. Chernick

3
Macro, như một quy tắc cơ bản trong hồi quy lỗi biến đồng nhất, nếu các lỗi trong IV là nhỏ so với lỗi trong DV, bạn có thể bỏ qua một cách an toàn trước đây và sử dụng hồi quy thông thường. Điều đó cung cấp cho bạn một cách nhanh chóng, đơn giản để xử lý vấn đề.
whuber

1
@whuber, cảm ơn - thật hữu ích. Có vẻ như nếu quy tắc đó có ý nghĩa thì trong trường hợp không đồng nhất sẽ sử dụng "nếu phương sai sai số lớn nhất trong IV là nhỏ so với phương sai lỗi trong DV, bạn có thể bỏ qua vấn đề một cách an toàn" một quy tắc hợp lý là điều kiện có thể thực sự hài lòng trong dữ liệu tôi đang xem.
Macro

1
@Michael, trong dữ liệu tôi đang xem xét phương sai của phép đo được tính trung bình là không lớn. Tôi phải kiểm tra nhưng hãy nóiσ21, do đó, phương sai của các giá trị trung bình (nếu hợp lý để nói phương sai là không đổi giữa các đơn vị - một điều khác tôi phải kiểm tra) là 1/n, vì vậy nó nằm trong khoảng giữa (0,05,1)cho các cỡ mẫu trong tập dữ liệu của tôi. Phương sai lỗi trongYTôi có khả năng là một, có thể là hai bậc lớn hơn thế này (một lần nữa, tôi sẽ phải kiểm tra).
Macro
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.