Hồi quy Beta của dữ liệu tỷ lệ bao gồm 1 và 0


19

Tôi đang cố gắng tạo ra một mô hình mà tôi có một biến trả lời là tỷ lệ giữa 0 và 1, điều này bao gồm khá nhiều 0 và 1 nhưng cũng có nhiều giá trị ở giữa. Tôi đang suy nghĩ về việc thử hồi quy beta. Gói tôi đã tìm thấy cho R (betareg) chỉ cho phép các giá trị nằm trong khoảng từ 0 đến 1 nhưng không bao gồm 0 hoặc 1 chúng. Tôi đã đọc ở nơi khác rằng về mặt lý thuyết, bản phân phối beta có thể xử lý các giá trị 0 hoặc 1 nhưng tôi không biết cách xử lý điều này trong RI đã thấy một số người thêm 0,001 vào các số 0 và lấy 0,001 từ các giá trị, nhưng tôi thì không chắc chắn đây là một ý tưởng tốt?

Ngoài ra, tôi có thể logit biến đổi biến trả lời và sử dụng hồi quy tuyến tính. Trong trường hợp này, tôi có cùng một vấn đề với 0 và 1 không thể chuyển đổi nhật ký.


Biết số lượng - không chỉ là tỷ lệ - là rất quan trọng cho dù bạn làm gì. Nhưng một khi bạn có số đếm, mô hình đầu tiên cần xem xét, ngay cả khi đó chỉ là một điểm khởi hành, là hồi quy logistic.
whuber

Chà, một bản beta nằm trong khoảng từ 0 đến 1 ( gần như chắc chắn ). Nếu bạn quan sát chúng, bạn nên sử dụng một mô hình mang lại cơ hội quan sát mẫu của bạn. Một vài câu trả lời dường như bao gồm cách tiếp cận đó; Tôi sẽ bắt đầu với họ.
Glen_b -Reinstate Monica

Câu trả lời:


18

Bạn có thể sử dụng mô hình hồi quy beta bằng 0 và / hoặc một lạm phát kết hợp phân phối beta với phân phối suy biến để gán một số xác suất tương ứng cho 0 và 1. Để biết chi tiết, xem các tài liệu tham khảo sau:

Ospina, R., & Ferrari, SLP (2010). Phân phối beta tăng cao. Báo cáo thống kê, 51 (1), 111-126. Ospina, R., & Ferrari, SLP (2012). Một lớp chung của các mô hình hồi quy beta bằng 0 hoặc 1 bị thổi phồng. Thống kê tính toán và phân tích dữ liệu, 56 (6), 1609 - 1623.

Những mô hình này dễ thực hiện với gói gamlss cho R.


Bạn có một ví dụ về cách thực hiện chúng trên R không?
Ouistiti

2
@Ouistiti zoibgói làm nó dễ dàng.
Đánh dấu

11

Tài liệu cho betareggói R đề cập rằng

nếu y cũng giả sử các cực trị 0 và 1, một phép biến đổi hữu ích trong thực tế là (y * (n 1) + 0,5) / n trong đó n là cỡ mẫu.

http://cran.r-project.org/web/packages/betareg/vignettes/betareg.pdf

Họ đưa ra tài liệu tham khảo Smithson M, Verkuilen J (2006). "Một máy ép chanh tốt hơn? Hồi quy tối đa khả năng với các biến phụ thuộc phân phối Beta." Phương pháp tâm lý, 11 (1), 54 trừ71.


1

Bạn không thực hiện một biến đổi logit để biến biến từ âm vô cực sang cộng vô cực? Tôi không chắc liệu dữ liệu có 0 và 1 có phải là vấn đề không. Là hiển thị bất kỳ thông báo lỗi? Nhân tiện, nếu bạn chỉ có tỷ lệ, phân tích của bạn sẽ luôn bị sai. Bạn cần phải sử dụng weight=argumentđến glmvới số lượng các trường hợp.

Nếu không có gì hoạt động, bạn có thể sử dụng phân chia trung bình hoặc phân chia phần tư hoặc bất kỳ điểm cắt nào bạn nghĩ phù hợp để tách DV thành nhiều loại và sau đó chạy hồi quy logistic thông thường. Điều đó có thể làm việc. Hãy thử những điều này.

Cá nhân tôi không nghĩ rằng việc thêm 0,001 vào các số 0 và lấy 0,001 từ các số 0 là một ý tưởng quá tệ, nhưng nó có một số vấn đề sẽ được thảo luận sau. Nghĩ mà xem, tại sao bạn không cộng và trừ 0,000000001 (hoặc thậm chí nhiều hơn số thập phân)? Điều đó sẽ tốt hơn đại diện cho 0 và 1 !! Dường như với bạn rằng nó không tạo ra nhiều khác biệt. Nhưng nó thực sự làm.

Chúng ta hãy xem như sau:

> #odds when 0 is replaced by 0.00000001

> 0.00000001/(1-0.00000001)
[1] 1e-08
> log(0.00000001/(1-0.00000001))
[1] -18.42068

> #odds when 1 is replaced by (1-0.00000001):

> (1-0.00000001)/(1-(1-0.00000001))
[1] 1e+08
> log((1-0.00000001)/(1-(1-0.00000001)))
[1] 18.42068

> #odds when 0 is replaced by 0.001

> 0.001/(1-0.001)
[1] 0.001001001
> log(0.001/(1-0.001))
[1] -6.906755

> #odds when 1 is replaced by (1-0.001):

> (1-0.001)/(1-(1-0.001))
[1] 999
> log((1-0.001)/(1-(1-0.001)))
[1] 6.906755

Vì vậy, bạn thấy, bạn cần giữ tỷ lệ cược gần bằng (0/1) và (1/0). Bạn mong đợi tỷ lệ cược đăng nhập từ âm vô cực đến cộng vô cực. Vì vậy, để cộng hoặc trừ, bạn cần chọn tối đa một vị trí thập phân thực sự dài, để tỷ lệ cược log trở nên gần với vô cùng (hoặc rất lớn) !! Mức độ bạn sẽ xem xét đủ lớn, chỉ phụ thuộc vào bạn.


1

Kiểm tra các phần sau, trong đó một phép chuyển đổi ad hoc được đề cập đến maartenbuis.nl/presentations/berlin10.pdf trên slide 17. Ngoài ra, bạn có thể lập mô hình 0 và 1 với hai hồi quy logistic riêng biệt và sau đó sử dụng hồi quy Beta cho những người không ở ranh giới.


1
(y*(n-1)+0,5)/nn

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.