Hồi quy cho một kết quả (tỷ lệ hoặc phân số) trong khoảng từ 0 đến 1


42

Tôi đang nghĩ đến việc xây dựng một mô hình dự đoán tỷ lệ , trong đó a ba > 0b > 0 . Vì vậy, tỷ lệ sẽ nằm trong khoảng từ 0 đến 1 .a/baba>0b>001

Tôi có thể sử dụng hồi quy tuyến tính, mặc dù nó không giới hạn tự nhiên đến 0..1. Tôi không có lý do để tin rằng mối quan hệ là tuyến tính, nhưng tất nhiên nó thường được sử dụng như một mô hình đầu tiên đơn giản.

Tôi có thể sử dụng hồi quy logistic, mặc dù nó thường được sử dụng để dự đoán xác suất của kết quả hai trạng thái, không dự đoán giá trị liên tục trong phạm vi 0..1.

Không biết gì thêm, bạn sẽ sử dụng hồi quy tuyến tính, hồi quy logistic hoặc tùy chọn ẩn c ?


4
Bạn đã xem xét hồi quy beta chưa?
Peter Flom - Tái lập Monica

Rất cám ơn tất cả những người đã trả lời. Tôi sẽ phải học lên và lựa chọn. Âm thanh như bản beta là một nơi tốt để bắt đầu, đặc biệt là nếu tôi có thể quan sát một sự phù hợp tốt (có lẽ bằng mắt).
dfrankow

Tôi đã thấy điều này được thực hiện bằng GLM (chức năng liên kết poisson). Tử số a sẽ là dữ liệu đếm (kết quả) và mẫu số b sẽ là biến bù. Sau đó, bạn sẽ cần các giá trị ab riêng biệt cho từng đối tượng / quan sát. Tôi chỉ không chắc đây có phải là lựa chọn hợp lệ nhất không. Tôi thấy bản phân phối Beta là một tùy chọn thú vị - một tùy chọn mà tôi chưa từng nghe đến. Tuy nhiên, tôi thấy khó nắm bắt, là một người không thống kê.
MegPophealth

Cảm ơn tất cả các bạn vì đã phân tích sâu và hữu ích, tôi hiện đang đối mặt với thử thách gần như tương tự, nhưng thay vì dự đoán phạm vi tỷ lệ liên tục trong khoảng 0-1, tôi muốn xây dựng mô hình hồi quy để dự đoán phạm vi tiện ích của bệnh nhân trong khoảng -1 và 1. Điều này khá khó khăn, tôi không thể tìm thấy bất kỳ chức năng liên kết nào phù hợp để xây dựng mô hình hồi quy với phạm vi phụ thuộc liên tục trong khoảng từ -1 đến 1. Vì vậy, mọi người chỉ muốn có manh mối về những gì có thể được thực hiện. Cảm ơn,

1
y(y+1)/2[0,1]

Câu trả lời:


34

Bạn nên chọn "tùy chọn ẩn c", trong đó c là hồi quy beta. Đây là một kiểu mô hình hồi quy phù hợp khi biến phản hồi được phân phối dưới dạng Beta . Bạn có thể nghĩ về nó tương tự như một mô hình tuyến tính tổng quát . Đó chính xác là những gì bạn đang tìm kiếm. Có một gói trong Rgọi là betareg liên quan đến điều này. Tôi không biết nếu bạn sử dụng R, nhưng ngay cả khi bạn không thể đọc 'họa tiết', họ sẽ cung cấp cho bạn thông tin chung về chủ đề này ngoài cách triển khai nó R(mà bạn không cần trường hợp).


aba/b

Một khả năng khác là sử dụng hồi quy tuyến tính nếu các tỷ lệ có thể được chuyển đổi để đáp ứng các giả định của mô hình tuyến tính tiêu chuẩn, mặc dù tôi sẽ không lạc quan về điều đó thực sự hoạt động.


1
Bạn có phiền giải thích tại sao hồi quy beta sẽ thích hợp hơn trong trường hợp này không? Đó là một đề nghị tôi thấy khá thường xuyên ở đây, nhưng tôi thực sự không thấy ai xây dựng cơ sở lý luận - điều đó thật tuyệt khi có!
Matt Parker

4
p

3
Tôi sẽ cẩn thận khi nói rằng bản beta là "bản phân phối phù hợp để sử dụng. Nó khá linh hoạt và nó có thể phù hợp nhưng nó không bao gồm tất cả các trường hợp. Vì vậy, trong khi đó là một đề xuất tốt và rất có thể là những gì họ muốn - bạn thực sự không thể nói rằng đó là phân phối phù hợp chỉ dựa trên thực tế rằng đó là phản hồi liên tục giữa 0 và 1.
Dason

1
Phân phối tam giác trên [0,1] thể hiện phân phối liên tục theo tỷ lệ không phải là beta. Có thể có nhiều người khác. Bản beta là một gia đình linh hoạt nicw nhưng không có gì kỳ diệu về nó. Bạn thực hiện một quan điểm tốt về hồi quy logistic bởi vì nó được áp dụng cho dữ liệu nhị phân.
Michael Chernick

2
Có lẽ tôi nên cố gắng để có vẻ ít giáo điều. Ý tôi là bạn kiểm tra DV của bạn và sử dụng phân phối theo sau. Đúng, có những phân phối khác của tỷ lệ liên tục. Về mặt kỹ thuật, Beta là tỷ lệ của một Gamma so với tổng của nó + một Gamma khác. Trong một tình huống nhất định, một phân phối khác nhau thể vượt trội; ví dụ: Beta không thể lấy các giá trị 0 hoặc 1, chỉ (0, 1). Tuy nhiên, Beta được hiểu rõ và rất linh hoạt chỉ với 2 thông số để phù hợp. Tôi lập luận rằng khi giao dịch với một tỷ lệ liên tục, nó thường là nơi tốt nhất để bắt đầu.
gung - Phục hồi Monica

2

Đây có phải là các mẫu được ghép nối hoặc hai quần thể độc lập?

XiXiMiXiMi

Chặn của bạn về hồi quy này sẽ là log (B) và độ dốc của bạn sẽ là log (tỷ lệ).

Xem thêm tại đây:

Beyene J, Moineddin R. Phương pháp ước tính khoảng tin cậy của một tham số tỷ lệ với ứng dụng cho chỉ tiêu vị trí. Phương pháp nghiên cứu y học BMC. 2005; 5 (1): 32.

EDIT: Tôi đã viết một addon SPSS để làm việc này. Tôi có thể chia sẻ nó nếu bạn quan tâm.


1
Vì tò mò bạn đã sử dụng phương pháp nào (delta, Fieller hay GLM)? Tôi hơi chậm một chút rằng bài báo BMC đã không thực hiện một số mô phỏng về phạm vi bảo hiểm của các công cụ ước tính khác nhau (mặc dù để mơ thấy một mô phỏng thực tế sẽ gây khó chịu). Tôi đã được nhắc nhở bởi vì gần đây tôi đã bắt gặp một bài báo thực hiện phương pháp delta (không có sự biện minh thực sự), mặc dù nó trích dẫn bài báo BMC.
Andy W

1
Quay lại khi tôi viết bình luận này, tôi đã sử dụng REGRESSIONsau khi chuyển đổi dữ liệu. Kể từ đó, tôi đã viết một phiên bản tinh vi hơn sử dụng GLM. Tôi xử lý các phép đo phát xạ ánh sáng và thử nghiệm của tôi cho thấy hồi quy gamma với một liên kết log là ít có sự không chắc chắn nhất về các thông số. Đối với hầu hết dữ liệu thực của tôi, các câu trả lời từ việc sử dụng bình thường, nhị thức âm và gamma với liên kết nhật ký đều thực sự giống nhau (ít nhất là với độ chính xác tôi cần)
DocBuckets

0

Xii=1,2,..,kkp1pp=exp(x)[1+exp(x)]x


p

2
-1. Tôi đồng ý với @amoeba. Tôi bối rối tại sao điều này đã bao giờ được nâng cao. Nó không tuân theo câu hỏi, vốn không giả sử dữ liệu nhị phân 0 hoặc 1 mà tập trung vào các tỷ lệ đo được bao gồm từ 0 đến 1.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.