Mở rộng hồi quy logistic cho các kết quả trong phạm vi từ 0 đến 1


9

Tôi có một vấn đề hồi quy trong đó các kết quả không hoàn toàn là 0, 1 mà là trong phạm vi của tất cả các số thực từ 0 đến 1 bao gồm .Y=[0,0.12,0.31,...,1]

Vấn đề này đã được thảo luận trong chủ đề này , mặc dù câu hỏi của tôi hơi khác nhau.

Tôi không thể sử dụng hồi quy tuyến tính vì những lý do tương tự mà hồi quy logistic thường được sử dụng. Trong hồi quy tuyến tính A) các giá trị IV rất lớn sẽ làm lệch kết quả dự đoán thành 1 và B) kết quả của hồi quy tuyến tính không bị giới hạn bởi các giới hạn 0,1.

Nhìn vào hàm chi phí logistic này từ sách giáo khoa của tôi Tôi tập hợp rằng phương trình được thiết kế để tính toán chi phí lớn hơn 0 chỉ khi và không có cùng giá trị 0 hoặc 1.

Cost=ylog(h(x))(1y)log(1h(x))
yx

Có thể sử dụng hồi quy logistic bằng cách sửa đổi hàm chi phí để đo lường tất cả các lỗi giả thuyết?

Câu trả lời:


9

Bạn có một vài lựa chọn. Hai trong số họ có thể là:

  1. Nếu bạn chuyển đổi của bạn thông qua chuyển đổi logistic bạn có thể thử điều chỉnh hồi quy tuyến tính thông qua bình phương tối thiểu thông thường cho biến phản ứng được chuyển đổi đó.Ylog(y1y)
  2. Ngoài ra, bạn có thể điều chỉnh biến ban đầu thành một mô hình tuyến tính tổng quát với biến đổi logistic là biến liên kết của bạn và với mối quan hệ giữa phương sai của và có nghĩa giống như đó là một biến nhị thức, phù hợp bởi các bình phương tối thiểu lặp lại. Điều này về cơ bản giống như "sử dụng hồi quy logistic".Y

Việc sử dụng cái nào sẽ phụ thuộc vào cấu trúc lỗi và cách duy nhất để quyết định là phù hợp với cả hai và xem cái nào có cấu trúc còn lại phù hợp nhất với các giả định của mô hình. Sự nghi ngờ của tôi là sẽ không có nhiều lựa chọn giữa họ. Chắc chắn, một trong hai tùy chọn này sẽ là một cải tiến lớn về hồi quy tuyến tính thẳng với chưa được dịch , vì những lý do bạn nói.Y


2
(+1) Tùy chọn 2: Thông thường, sau đó bạn ước tính độ phân tán quá mức và sử dụng để tính toán các lỗi tiêu chuẩn - mô hình "bán nhị phân" trong đó mối quan hệ giữa phương sai và giá trị trung bình của tỷ lệ thay vì tương tự như của một biến nhị thức.
Scortchi - Phục hồi Monica

@Scortchi: Đây có phải là glm()chức năng trong R đang hoạt động khi được cho ăn với phản ứng liên tục và family=quasibinomial? Tức là nó sẽ ước tính các hệ số với family=binomialvà sau đó, trong một bước bổ sung, tính toán các lỗi tiêu chuẩn có sự phân tán quá mức vào tài khoản? Nếu có, điều này có giống như tính toán "lỗi tiêu chuẩn mạnh" không? Tôi có một số dữ liệu phù hợp và tôi đã thử cả hai gia đình glm; Tôi nhận được hệ số giống hệt nhau nhưng lỗi khác nhau tiêu chuẩn. Cảm ơn.
amip

1
@amoeba: Vâng, đúng vậy. Nhưng "lỗi tiêu chuẩn mạnh" thường có nghĩa là sử dụng công cụ ước tính sandwich hoặc tương tự.
Scortchi - Phục hồi Monica

8

Khi Y bị ràng buộc, hồi quy beta thường có ý nghĩa; xem bài báo "A Lemon Lemon Squeezer"

Điều này cho phép hiệu ứng sàn và trần; nó cũng cho phép mô hình hóa phương sai cũng như giá trị trung bình.


0

Vì y không hoàn toàn bằng 0 hoặc một (như bạn đã nói) nên chi phí luôn luôn lớn hơn 0. Vì vậy, tôi không nghĩ rằng bạn cần sửa đổi trong mô hình.


0

Tôi đề nghị hai mô hình thay thế:

Nếu kết quả của bạn (y biến) được đặt hàng, hãy thử mô hình Probit có thứ tự.

Nếu kết quả của bạn (y biến) không được đặt hàng, hãy thử mô hình Logit Multialomial.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.