Thảo luận về hồi quy nhị thức và chiến lược mô hình hóa


8

Hôm nay tôi có một câu hỏi về hồi quy nhị thức / logistic, nó dựa trên một phân tích mà một nhóm trong bộ phận của tôi đã thực hiện và đang tìm kiếm ý kiến. Tôi đã tạo ra ví dụ dưới đây để bảo vệ danh tính của họ, nhưng họ rất muốn xem phản hồi.

Đầu tiên, phân tích bắt đầu với phản ứng nhị thức 1 hoặc 0 đơn giản (ví dụ như sự sống sót từ mùa sinh sản này sang mùa tiếp theo) và mục tiêu là mô hình hóa phản ứng này như là một chức năng của một số đồng biến.

Tuy nhiên, nhiều phép đo của một số đồng biến có sẵn cho một số cá nhân, nhưng không phải cho các số khác. Ví dụ, hãy tưởng tượng biến x là thước đo tốc độ trao đổi chất trong quá trình chuyển dạ và các cá nhân khác nhau về số lượng con mà họ có (ví dụ: biến x được đo 3 lần cho cá thể A, nhưng chỉ một lần cho cá thể B). Sự mất cân bằng này không phải do chiến lược lấy mẫu của các nhà nghiên cứu, mà phản ánh các đặc điểm của dân số mà họ đã lấy mẫu từ đó; một số cá thể có nhiều con hơn những con khác.

Tôi cũng nên chỉ ra rằng việc đo lường phản ứng nhị thức 0 \ 1 giữa các sự kiện lao động là không thể vì khoảng thời gian giữa các sự kiện này khá ngắn. Một lần nữa, hãy tưởng tượng các loài trong câu hỏi có một mùa sinh sản ngắn, nhưng có thể sinh ra nhiều hơn một con trong mùa.

Các nhà nghiên cứu đã chọn chạy một mô hình trong đó họ sử dụng giá trị trung bình của biến x là một hiệp phương sai và số con của một cá thể đã sinh ra như một hiệp phương sai khác.

Bây giờ, tôi không quan tâm đến phương pháp này vì một số lý do

1) Lấy trung bình của x có nghĩa là mất thông tin trong biến thiên bên trong của x.

2) Giá trị trung bình tự nó là một số liệu thống kê, vì vậy bằng cách đưa nó vào mô hình, cuối cùng chúng ta sẽ thực hiện thống kê về thống kê.

3) Số lượng con mà một cá nhân có trong mô hình, nhưng nó cũng được sử dụng để tính giá trị trung bình của biến x, mà tôi nghĩ có thể gây rắc rối.

Vì vậy, câu hỏi của tôi là làm thế nào mọi người sẽ đi về mô hình hóa loại dữ liệu này?

Hiện tại, tôi có thể sẽ chạy các mô hình riêng biệt cho các cá nhân có một con, sau đó cho các cá thể có hai con, v.v. Ngoài ra, tôi sẽ không sử dụng giá trị trung bình của biến x và chỉ sử dụng dữ liệu thô cho mỗi lần sinh, nhưng tôi không tin điều này cũng tốt hơn nhiều.

Cảm ơn bạn đã dành thời gian

(PS: Tôi xin lỗi vì đây là một câu hỏi khá dài và tôi hy vọng rằng ví dụ này rõ ràng)


Họ thực sự quan tâm đến sự sống còn từ mùa này sang mùa khác, hay họ thích làm người mẫu sống sót theo thời gian?
Matt Parker

Câu trả lời:


3

Có vẻ như bạn đang ở trong tình trạng khó khăn vì bạn chỉ có 1 biến trả lời cho mỗi phép đo riêng lẻ. Ban đầu tôi sẽ đề xuất một cách tiếp cận đa cấp. Nhưng để làm việc đó, bạn cần quan sát phản hồi ở mức thấp nhất - điều mà bạn không làm - bạn quan sát phản hồi của mình ở cấp độ cá nhân (sẽ là cấp 2 trong MLM)

1) Lấy trung bình của x có nghĩa là mất thông tin trong biến thiên bên trong của x.

Bạn đang mất tính biến thiên của hiệp phương x, nhưng điều này chỉ quan trọng nếu thông tin khác có trong X có liên quan đến phản hồi. Không có gì ngăn cản bạn đưa phương sai của X vào làm hiệp phương sai.

2) Giá trị trung bình tự nó là một số liệu thống kê, vì vậy bằng cách đưa nó vào mô hình, cuối cùng chúng ta sẽ thực hiện thống kê về thống kê.

Một thống kê là một chức năng của dữ liệu quan sát. Vì vậy, bất kỳ hiệp phương sai là một "thống kê". Vì vậy, bạn đã thực hiện "thống kê về thống kê" cho dù bạn có thích hay không. Tuy nhiên, nó có một sự khác biệt đối với cách bạn nên diễn giải hệ số độ dốc - như một giá trị trung bình và không phải là một giá trị trong từng lần sinh. Nếu bạn không quan tâm đến việc sinh riêng lẻ, thì vấn đề này rất ít. Nếu bạn làm, thì cách tiếp cận này có thể gây hiểu nhầm.

3) Số lượng con mà một cá nhân có trong mô hình, nhưng nó cũng được sử dụng để tính giá trị trung bình của biến x, mà tôi nghĩ có thể gây rắc rối.

Sẽ chỉ có vấn đề nếu giá trị trung bình của X có liên quan về chức năng / xác định với số lượng con. Một cách điều này có thể xảy ra là nếu giá trị của X là như nhau đối với mỗi cá nhân có cùng số lần sinh. Thông thường đây không phải là trường hợp.

Bạn có thể chỉ định một mô hình bao gồm mỗi giá trị của X dưới dạng hiệp phương sai. Nhưng điều này có thể sẽ liên quan đến một số nghiên cứu phương pháp mới về phần bạn sẽ tưởng tượng. Chức năng khả năng của bạn sẽ khác nhau đối với các cá nhân khác nhau, do số lượng đo khác nhau trong các cá nhân. Tôi không nghĩ rằng mô hình đa cấp áp dụng trong trường hợp này về mặt khái niệm . Điều này đơn giản là vì các lần sinh không phải là tập hợp con hoặc mẫu trong các cá nhân. Mặc dù các phép toán có thể giống nhau.

Một cách bạn có thể kết hợp cấu trúc này là tạo một mô hình như:

(Yij|xij)Bin(Yij|nij,pij)

Trong đó là phản ứng nhị thức cho cá nhân và biểu thị số lần sinh, là số đồng biến và là số lượng cá thể có cùng giá trị đồng biến và cũng có cùng số sinh. là xác suất mà bạn thường mô hình là:Yijijxijnijpij

g(pij)=xijTβ

Đối với một số hàm đơn điệu / khả nghịch . Phần "khó khăn" xuất hiện do kích thước của thay đổi theo . Khả năng đăng nhập trong trường hợp này là:g(.)xijj

L=L(β)=jB[i=1Njlog[Bin(Yij|nij,g1(xijTβ))]]

Trong đó chỉ là tập hợp số lần sinh mà bạn có sẵn trong tập dữ liệu của mình. Để tối đa hóa, đây có thể là một nhiệm vụ không cần thiết và có lẽ bạn sẽ không nhận được các phương trình IRLS thông thường từ việc thực hiện mở rộng chuỗi taylor về ước tính hiện tại. Taylor series là cách tôi sẽ đi từ đây - tôi chỉ không có năng lượng để chạy qua quá trình tại thời điểm này. Tôi sẽ đề nghị bạn cố gắng sắp xếp lại câu trả lời của mình để nó trông giống như một GLM nhị thức "thông thường". Điều này sẽ cho phép bạn tận dụng các phần mềm tiêu chuẩn có sẵn.B

Điều tôi có thể nói với bạn là khi bạn phân biệt với beta phụ thuộc vào (ví dụ: hệ số tỷ lệ trao đổi chất cho lần sinh thứ ba), một số thuật ngữ trong tổng kết này sẽ bị loại bỏ. Về cơ bản, đây là khả năng "nói với bạn" rằng các quan sát nhất định không đóng góp gì cho việc ước tính các tham số nhất định (ví dụ: những người sinh hai hoặc ít con không đóng góp gì cho độ dốc ước tính cho tỷ lệ trao đổi chất cho lần sinh thứ ba).j

Vì vậy, tóm lại, trực giác của bạn được chú ý khi bạn đề xuất rằng một cái gì đó đang bị mất. Tuy nhiên, giá cho "độ tinh khiết" có thể cao - đặc biệt nếu bạn cần viết thuật toán của riêng mình để có được ước tính của mình.


2

Tôi nghĩ rằng bạn có thể khám phá một mô hình hỗn hợp phi tuyến; điều này sẽ cho phép bạn sử dụng dữ liệu bạn có một cách hiệu quả. Nhưng nếu tương đối ít đối tượng có nhiều biện pháp, nó sẽ không quan trọng lắm và có thể không hoạt động tốt (tôi nghĩ có thể có vấn đề về hội tụ).

Nếu bạn đang sử dụng SAS, bạn có thể sử dụng PROC GLIMMIX; Nếu sử dụng RI nghĩ rằng lme4 sẽ hữu ích.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.