Làm thế nào để kết hợp mô hình hồi quy?


8

Nói rằng tôi có ba bộ dữ liệu có kích thước mỗi cái:n

y1 = chiều cao của những người chỉ từ Hoa Kỳ

y2 = chiều cao của đàn ông trên toàn thế giới

y3 = chiều cao của phụ nữ trên toàn thế giới

Và tôi xây dựng một mô hình tuyến tính cho từng mô hình với các yếu tố , : i = 1 , . . . , kxii=1,...,k

y^j=β0+β1x1+β2x2+ϵj

với có các thuộc tính thông thường cho OLS. Và tôi có thể sử dụng một yếu tố trong nhiều hơn một hồi quy. x tôiϵxi


Câu hỏi của tôi là: Làm thế nào tôi có thể kết hợp các hồi quy để tôi có thể có được ước tính cho:

y12 = chiều cao của nam giới chỉ từ Hoa Kỳ

y13 = chiều cao của phụ nữ chỉ từ Hoa Kỳ

mà tôi không có dữ liệu


Tôi nghĩ có lẽ một số loại trọng lượng:

y^12=w1y^1+(1w1)y^2

nhưng sau đó tôi sẽ không biết sử dụng cái gì cho .w1


1
Tôi không có bất cứ điều gì đủ vững chắc để trở thành một câu trả lời, nhưng như một nhận xét: điều đầu tiên bạn nghĩ đến là sử dụng một hồi quy phân cấp (hỗn hợp) duy nhất. Nhưng tôi thực sự không thể tìm ra đâu là hiệu ứng ngẫu nhiên, nên có lẽ nó sẽ không hoạt động. Dù vậy, tôi nghĩ rằng tôi đã ném ý tưởng ra khỏi đó.
Wayne

Cám ơn vì sự gợi ý. Có, có vẻ như mô hình phân cấp bạn sẽ cần thực hiện trên dữ liệu , phải không? y12
J4y

Suy nghĩ ban đầu của tôi là về việc y bị chặn bởi tình dục - một cái gì đó giống như height ~ f1 + f2 + f3 + (1 | sex)trong gói Rlmer
Wayne

Câu trả lời:


1

Không rõ liệu bạn muốn ước tính chiều cao cho từng người đàn ông và phụ nữ (nhiều hơn một vấn đề phân loại) hoặc đặc trưng cho sự phân bố chiều cao của mỗi giới tính. Tôi sẽ giả định sau. Bạn cũng không chỉ định thông tin bổ sung nào bạn đang sử dụng trong mô hình của mình, vì vậy tôi sẽ giới hạn bản thân trong việc giải quyết trường hợp bạn chỉ có dữ liệu chiều cao (và dữ liệu giới tính, trong trường hợp không phải là công dân Hoa Kỳ).

Tôi khuyên bạn chỉ nên lắp hỗn hợp phân phối cho dữ liệu chiều cao từ Hoa Kỳ , bởi vì phân phối chiều cao ở nam và nữ khác nhau một cách hợp lý. Điều này sẽ ước tính các tham số của hai bản phân phối mà khi tổng hợp lại với nhau mô tả đúng nhất sự thay đổi trong dữ liệu. Các tham số của các phân phối này (trung bình và phương sai, do phân phối Gaussian sẽ hoạt động tốt) cung cấp cho bạn thông tin bạn đang theo dõi. Các gói R mixtoolsmixdistcho phép bạn làm điều này; Tôi chắc chắn có nhiều hơn nữa là tốt.

Giải pháp này có vẻ kỳ lạ, bởi vì nó bỏ qua tất cả thông tin bạn có từ bên ngoài Hoa Kỳ, nơi bạn đã biết giới tính và chiều cao của mỗi cá nhân. Nhưng tôi nghĩ nó hợp lý bởi vì:

1) Chúng tôi có một kỳ vọng rất mạnh mẽ rằng đàn ông trung bình cao hơn phụ nữ. Danh sách Wikipedia về chiều cao trung bình của con người trên toàn thế giới cho thấy thậm chí không chỉ một quốc gia hay khu vực nơi phụ nữ cao hơn nam giới. Vì vậy, danh tính của phân phối với chiều cao trung bình lớn hơn không thực sự nghi ngờ.

2) Tích hợp thông tin cụ thể hơn từ dữ liệu ngoài Hoa Kỳ có thể sẽ liên quan đến việc đưa ra giả định rằng hiệp phương sai giữa giới tính và chiều cao là giống nhau bên ngoài Hoa Kỳ như bên trong. Nhưng điều này không hoàn toàn đúng - cùng một danh sách Wikipedia chỉ ra rằng tỷ lệ nam / nữ có chiều cao khác nhau trong khoảng từ 1,04 đến 1,13.

3) Dữ liệu quốc tế của bạn có thể phức tạp hơn nhiều để phân tích vì mọi người ở các quốc gia khác nhau cũng có sự khác biệt lớn trong phân phối chiều cao. Do đó, bạn có thể cần xem xét mô hình hóa hỗn hợp hỗn hợp phân phối. Điều này cũng có thể đúng ở Mỹ, nhưng có lẽ ít vấn đề hơn so với bộ dữ liệu bao gồm tiếng Hà Lan (chiều cao trung bình: 184 cm) và người Indonesia (chiều cao trung bình: 158 cm). Và đó là những mức trung bình cấp quốc gia; các quần thể khác nhau ở một mức độ thậm chí.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.