Đầu ra hồi quy logistic và xác suất [trùng lặp]


9

Giải thích số là đầu ra của hàm hồi quy logistic là gì?

Hàm logistic

f(x)= =11+e-g(x)

(trong đó là một hàm tuyến tính) được cho là ánh xạ một biến liên tục (hay nói chung là toàn bộ một biến các biến hoàn toàn theo thứ tự) đến giữa 0 và 1.g

Tôi luôn cho rằng đó là xác suất đưa vào bộ này hay bộ kia. Phạm vi là (tốt, có thể không phải là 0 và 1), đó là xác suất. Và thẳng thắn bất cứ điều gì giữa 0 và 1, nó có thể là gì khác ngoài xác suất.[0,1]

Nhưng nhìn vào đường cong, tôi bắt đầu nghi ngờ. Tôi tự hỏi nếu nó nhất thiết phải được giải thích như một xác suất. Có vẻ như một xác suất nhưng nó thực sự? Chỉ vì họ chia sẻ cùng một phạm vi không có nghĩa là họ giống nhau. Nếu , điều đó thực sự có nghĩa là của nhỏ hơn ?f(x)= =0,7575%ff(x)

Điều này có thể đi theo hai hướng:

  • Giả sử đó là một xác suất, hoặc chính xác hơn xác suất phân loại 'đúng', '1' hoặc 'dương' của một điểm trong miền. Làm thế nào là hợp lý?

  • Giả sử không. Vậy thì nó chính xác là gì và tại sao? Làm thế nào xa một cách từ một xác suất (số lượng và khái niệm)?

Một cách khác để nói điều này là có gì đặc biệt về ? Tại sao không có bất kỳ hàm lẻ (khoảng ) đơn điệu nào có cùng phạm vi, như hoặc (rất gần nhưng không bằng hàm logistic)1/(1+e-g(x))y= =1/2

f(x)= =tan-1(g(x))+π/2π
f(x)= =erf(g(x))= =2π-xe-t2 dt

3 chức năng giống như sigmoid

hoặc thẳng thắn ?

f(x)= =0,Tôif g(x)<01,Tôif g(x)> =0

3
Hồi quy logistic được cho là phù hợp với xác suất có điều kiện , nhưng tất nhiên, có thể mô hình bị sai. p(Y= =1|X= =x)
gung - Tái lập Monica

1
@gung nhưng những căn cứ của giả định đó là gì? Thực tế là giá trị sigmoid nằm giữa 0 và 1?
Yurii

@Yurii, giả định gì? Nếu mối quan hệ là đường cong, nhưng bạn không bao gồm thuật ngữ đường cong, thì xác suất được trang bị sẽ khác với xác suất thực.
gung - Phục hồi Monica

@gung giả định là hồi quy logistic sẽ tạo ra xác suất có điều kiện mà bạn đã đề cập
Yurii

Câu trả lời:


4

Giải thích số là đầu ra của hàm hồi quy logistic là gì?

Hồi quy logistic như được hiểu trong những thập kỷ gần đây được sử dụng rõ ràng như một mô hình cho dữ liệu nhị phân hoặc dữ liệu nhị thức (với phần mở rộng vào các trường hợp khác như đa thức), trong đó mô hình nếu cho tham số, p, đó thực sự là một xác suất.

Tuy nhiên, hồi quy logistic có nguồn gốc từ việc mô hình hóa sự tăng trưởng của tỷ lệ theo thời gian [1] (có thể là liên tục), do đó, nguồn gốc của nó có liên kết chặt chẽ với các mô hình phi tuyến phù hợp với các đường cong tăng trưởng logistic

Và thẳng thắn bất cứ điều gì giữa 0 và 1, nó có thể là gì khác ngoài xác suất.

Chà, thứ gì đó trong khoảng từ 0 đến 1 có thể là một mô hình một phần liên tục, chẳng hạn như tỷ lệ chất A trong hỗn hợp các thứ. Mô hình hồi quy logistic có thể như vậy không? Mô hình cho giá trị trung bình có ý nghĩa, nhưng mô hình cho phương sai không nhất thiết phải có ý nghĩa; trong hồi quy logistic, hàm phương sai có dạngμ(1-μ). Điều này liên quan trực tiếp đến phương sai của Bernoulli.

Tuy nhiên (ví dụ) người ta có thể xem xét xấp xỉ một cái gì đó như beta (có chức năng phương sai tỷ lệ với μ(1-μ)) bằng một mô hình nhị phân; sau đó chúng ta sẽ không nhất thiết phải mô hình hóa một xác suất như vậy, nhưng chúng ta vẫn có thể sử dụng hồi quy logistic để làm điều đó.

Vì vậy, trong khi nó gần như luôn được coi là một mô hình cho một xác suất, thì nó không nhất thiết phải như vậy.

Giả sử đó là một xác suất, hoặc chính xác hơn là xác suất phân loại 'đúng', '1' hoặc 'dương' của một điểm trong miền. Làm thế nào là hợp lý?

Tôi không hiểu câu hỏi ở đây. Nếu nó rõ ràng là một mô hình choptrong một Bernoulli, bạn tìm kiếm loại biện minh bổ sung nào? Tất nhiên chức năng liên kết có thể sai (trong khi đó không có khó khăn lớn - vì các liên kết khác có thể được sử dụng - chúng tôi sẽ không còn thực hiện hồi quy logistic).

[1]: Cramer, JS (2002),
"Nguồn gốc của hồi quy logistic"
, Viện Tinbergen, tháng 12
http://epage.tinbergen.nl/02119.pdf


1
Tôi nghĩ những gì tôi đang cố gắng đạt được là tại sao các đường cong có hình dạng tương tự khác không phải là thước đo xác suất? Giốngf(2x)= =tanh(x)+12hoặc CDF của đường cong thông thường?
Mitch

1
Sử dụng CDF của một đường cong bình thường rõ ràng không phải là hồi quy logistic, vì nó không sử dụng hàm logistic. Các mô hình sử dụng CDF bình thường được gọi là probit. Một loại mô hình -obit khác là robit, sử dụng CDF Cauchy.
Sycorax nói phục hồi Monica

@Mitch Họ là! Ví dụ, chức năng liên kết probit thường được sử dụng thay cho logit trong các glm Bernoulli (/ binomial) (và nó không phải là duy nhất; nhiều gói thống kê cung cấp chức năng liên kết log-log-log bổ sung, là một cdf khác). Tôi khá chắc chắn rằng câu hỏi đã chỉnh sửa của bạn bây giờ là một bản sao.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.