GLM với liên kết logit và họ Gaussian để dự đoán DV liên tục trong khoảng từ 0 đến 1


7

Bạn có thể chạy GLM bằng liên kết logit với DV liên tục (trong khoảng từ 0 đến 1) không? Nói chung, nên sử dụng họ nhị phân có liên kết logit, nhưng tôi đoán đó là vì mô hình giả định DV nhị phân. Nếu chúng ta có một DV liên tục, chúng ta có muốn sử dụng họ Gaussian thay vì nhị thức không?

Tôi xin lỗi nếu câu hỏi này không có ý nghĩa nhiều: tôi chỉ có kiến ​​thức cơ bản về thống kê và tôi chỉ đang cố gắng hiệu chỉnh lại một mô hình được chỉ định bởi một đồng nghiệp một số năm trước.


Câu trả lời:


9

Bạn dường như muốn sử dụng một logit phân đoạn, tức là một mô hình gần như cho một tỷ lệ. Chìa khóa ở đây là nó là một mô hình gần đúng, vì vậy gia đình đề cập đến hàm phương sai và không có gì khác. Trong khả năng gần đúng, phương sai là một tham số phiền toái, không phải được chỉ định chính xác trong mô hình của bạn nếu tập dữ liệu của bạn đủ lớn. Vì vậy, tôi sẽ gắn bó với gia đình thông thường cho một mô hình logit phân đoạn và sử dụng họ nhị thức.


2
+1. Lưu ý rằng với tỷ lệ liên tục, giống như các biến nhị phân (0, 1), có một mối quan hệ trung bình phương sai mà nhất thiết phải loại trừ một Gaussian. Xem xét các trường hợp hạn chế. Giá trị trung bình của 0 hàm ý tất cả các giá trị 0 và do đó phương sai 0; tương tự giá trị trung bình của 1 hàm ý tất cả các giá trị 1 và do đó phương sai cũng bằng 0. Do đó phương sai phải lớn nhất đối với một số tỷ lệ trung bình trung bình và nhị thức gần đúng hơn, ít nhất là về mặt định tính. Như @Gavin Simpson đã chỉ ra một cách đúng đắn, hồi quy beta cũng có thể được bảo vệ.
Nick Cox

1
Lưu ý rằng các đối số trong nhận xét của tôi ở trên là một chút vẫy tay. Ví dụ, về nguyên tắc, tất cả các giá trị là 0,42 và do đó phương sai cũng có thể là 0. Nhưng trong thực tế, những trường hợp như vậy không cần hoặc xứng đáng được mô hình hóa.
Nick Cox

7

Nếu dữ liệu của bạn thực sự là tỷ lệ liên tục (ví dụ phổ biến tôi thấy là% phù sa, đất sét hoặc cát trong các mẫu trầm tích - chỉ một trong những loại này cho hồi quy beta, cả ba loại cho hồi quy Dirichlet) thì hồi quy beta sẽ tự đề xuất. Nó không phải là một GLM sensu McCullagh và Nelder, nhưng nó là một phần của gia đình mở rộng của GLMs mà nhìn, đi bộ, và lang băm như một GLM.


1
Tôi (cùng với Nick) đã làm việc với hồi quy dựa trên các bản phân phối beta và Dirichlet, vì vậy tôi nên là một phần của chúng. Tuy nhiên, tôi đang dần bị thuyết phục (dựa trên các mô phỏng số) rằng một logit phân đoạn (đa phương) có xu hướng mạnh mẽ hơn. Phương sai không còn phải được chỉ định chính xác trong logit phân đoạn, trong khi nó phải được chỉ định chính xác trong hồi quy beta hoặc Dirichlet. Nếu đó là phương sai được quan tâm thực sự, thì một logit phân đoạn sẽ không làm những gì bạn muốn, nhưng nếu không thì một logit phân đoạn sẽ là mô hình mặc định của tôi cho dữ liệu phân đoạn.
Maarten Buis

@MaartenBuis Thật vậy; Tôi không có ý định này sẽ được coi là một hoặc / hoặc - Tôi cũng đã sử dụng cả hai hồi quy nhị phân và beta.
Gavin Simpson

1
Tại sao hồi quy beta không phải là GLM Sensurictu, @Gavin?
amip

1
Với tất cả các thông số được ước tính, tôi không nghĩ rằng bạn có thể viết nó xuống dưới dạng cần thiết cho GLMs Sensu McCullagh & Nelder. Theo nghĩa tương tự, một mô hình nhị thức âm không phù hợp với sơ đồ GLM nếu tham số theta cũng được ước tính.
Gavin Simpson

6

Có bạn có thể. Các tham số mô hình vẫn là tỷ lệ tỷ lệ cược log, nhưng chúng được ước tính khác nhau. Mô hình của bạn với các thông số kỹ thuật như vậy về cơ bản là một bình phương nhỏ nhất phi tuyến, trong đó đường cong "S" logit phù hợp với kết quả 0/1 để giảm thiểu lỗi bình phương. Tuy nhiên, sự tương phản với hồi quy logistic thông thường rất nổi tiếng: phương pháp này đặt rất ít trọng lượng lên kết quả 0/1 do chênh lệch tỷ lệ 0,95 so với 0,96 lớn hơn nhiều khi được nhân rộng bởi phương sai nhị thức của nó. Các gia đình Gaussian không giả định bất kỳ mối quan hệ phương sai trung bình. Đó là lý do tại sao phương pháp này không thường được sử dụng.

Nếu kết quả cho bạn là tỷ lệ, thì câu hỏi hóc búa là: bạn có mẫu số cho các tỷ lệ này không? ví dụ: 0,43 phần trăm được tính trong số hoặc người tham gia và / hoặc giá trị này có khác nhau giữa các quan sát khác nhau mà bạn thu được không? Nếu vậy, trọng số của khả năng nhị thức cho phép suy luận tương đương với số đếm 0/1 được quan sát đầy đủ.n=100n=200

Ví dụ, trong R, nó vẫn sẽ đưa ra cảnh báo rằng bạn đã sử dụng các biến kết quả không nhị phân, nhưng thuật toán phù hợp không "phá vỡ" khi nhập dữ liệu của định dạng này. Các phần mềm khác có thể ngăn chặn các cách tiếp cận như vậy hoàn toàn, do đó bạn sẽ phải tạo các biến sản phẩm.

Tuy nhiên, không có số lượng như vậy tại chỗ, nên sử dụng các phương pháp ước tính lỗi mạnh mẽ khác. Những gợi ý về khả năng gây khó chịu của người khác có vẻ như là một lựa chọn hợp lý.


1
+1. Nếu dữ liệu là xác suất thì sao? Ví dụ, dữ liệu đến từ một thí nghiệm tâm lý nơi mọi người đang ước tính xác suất của một cái gì đó; những dự đoán này (từ 0 đến 1) là DV. Nó giống như hồi quy logistic nhưng thay vì kết quả nhị thức, chúng ta có xác suất. Một cách tiếp cận hợp lý sau đó là gì?
amip

@amoeba Tôi nghĩ cách tiếp cận vẫn hợp lệ, với điều kiện mô hình trung bình là chính xác.
AdamO
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.