Hôm nay tôi có một câu hỏi về hồi quy nhị thức / logistic, nó dựa trên một phân tích mà một nhóm trong bộ phận của tôi đã thực hiện và đang tìm kiếm ý kiến. Tôi đã tạo ra ví dụ dưới đây để bảo vệ danh tính của họ, nhưng họ rất muốn xem phản hồi.
Đầu tiên, phân tích bắt đầu với phản ứng nhị thức 1 hoặc 0 đơn giản (ví dụ như sự sống sót từ mùa sinh sản này sang mùa tiếp theo) và mục tiêu là mô hình hóa phản ứng này như là một chức năng của một số đồng biến.
Tuy nhiên, nhiều phép đo của một số đồng biến có sẵn cho một số cá nhân, nhưng không phải cho các số khác. Ví dụ, hãy tưởng tượng biến x là thước đo tốc độ trao đổi chất trong quá trình chuyển dạ và các cá nhân khác nhau về số lượng con mà họ có (ví dụ: biến x được đo 3 lần cho cá thể A, nhưng chỉ một lần cho cá thể B). Sự mất cân bằng này không phải do chiến lược lấy mẫu của các nhà nghiên cứu, mà phản ánh các đặc điểm của dân số mà họ đã lấy mẫu từ đó; một số cá thể có nhiều con hơn những con khác.
Tôi cũng nên chỉ ra rằng việc đo lường phản ứng nhị thức 0 \ 1 giữa các sự kiện lao động là không thể vì khoảng thời gian giữa các sự kiện này khá ngắn. Một lần nữa, hãy tưởng tượng các loài trong câu hỏi có một mùa sinh sản ngắn, nhưng có thể sinh ra nhiều hơn một con trong mùa.
Các nhà nghiên cứu đã chọn chạy một mô hình trong đó họ sử dụng giá trị trung bình của biến x là một hiệp phương sai và số con của một cá thể đã sinh ra như một hiệp phương sai khác.
Bây giờ, tôi không quan tâm đến phương pháp này vì một số lý do
1) Lấy trung bình của x có nghĩa là mất thông tin trong biến thiên bên trong của x.
2) Giá trị trung bình tự nó là một số liệu thống kê, vì vậy bằng cách đưa nó vào mô hình, cuối cùng chúng ta sẽ thực hiện thống kê về thống kê.
3) Số lượng con mà một cá nhân có trong mô hình, nhưng nó cũng được sử dụng để tính giá trị trung bình của biến x, mà tôi nghĩ có thể gây rắc rối.
Vì vậy, câu hỏi của tôi là làm thế nào mọi người sẽ đi về mô hình hóa loại dữ liệu này?
Hiện tại, tôi có thể sẽ chạy các mô hình riêng biệt cho các cá nhân có một con, sau đó cho các cá thể có hai con, v.v. Ngoài ra, tôi sẽ không sử dụng giá trị trung bình của biến x và chỉ sử dụng dữ liệu thô cho mỗi lần sinh, nhưng tôi không tin điều này cũng tốt hơn nhiều.
Cảm ơn bạn đã dành thời gian
(PS: Tôi xin lỗi vì đây là một câu hỏi khá dài và tôi hy vọng rằng ví dụ này rõ ràng)