Hồi quy logistic - Thời hạn lỗi và phân phối của nó


31

Về việc liệu một thuật ngữ lỗi có tồn tại trong hồi quy logistic (và phân phối giả định của nó) hay không, tôi đã đọc ở nhiều nơi:

  1. không có thuật ngữ lỗi tồn tại
  2. thuật ngữ lỗi có phân phối nhị thức (theo phân phối của biến trả lời)
  3. thuật ngữ lỗi có phân phối logistic

Ai đó có thể vui lòng làm rõ?


6
Với hồi quy logistic - hoặc thực sự là GLM nói chung - thường không hữu ích khi nghĩ theo quan sát là "trung bình + lỗi". Tốt hơn để suy nghĩ về mặt phân phối có điều kiện. Tôi sẽ không đi xa để nói rằng 'không có thuật ngữ lỗi tồn tại' vì 'thật không hữu ích khi nghĩ theo những điều khoản đó'. Vì vậy, tôi sẽ không nói rằng đó là sự lựa chọn giữa 1. hoặc 2. vì tôi thường nói rằng tốt hơn hết là nói "không có gì ở trên". Tuy nhiên, không phân biệt mức độ mà người ta có thể tranh luận cho "1." hoặc "2.", mặc dù, "3." chắc chắn là sai Bạn đã thấy điều đó ở đâu? yi|x
Glen_b -Reinstate Monica

1
@Glen_b: Có thể tranh luận về (2) không? Tôi đã biết mọi người nói điều đó nhưng không bao giờ bảo vệ nó khi nó bị nghi ngờ.
Scortchi - Phục hồi Monica

3
@Glen_b Tất cả ba câu lệnh đều có cách hiểu mang tính xây dựng, trong đó chúng là đúng. (3) được giải quyết tại en.wikipedia.org/wiki/Logistic_distribution#Appluggesten.wikipedia.org/wiki/Discittle_choice#Binary_Choice .
whuber

@whuber: Tôi đã sửa câu trả lời của mình (3), điều này không được suy nghĩ kỹ; nhưng vẫn còn hoang mang về ý nghĩa nào (2) có thể đúng.
Scortchi - Phục hồi Monica

2
@Scortchi Mặc dù bạn nói đúng (2) là không chính xác, nhưng nếu chúng tôi giải thích rằng sự khác biệt giữa một quan sát và kỳ vọng của nó có phân phối nhị thức được dịch theo kỳ vọng , thì nó sẽ đúng (tầm thường). Nhận xét về cha mẹ trong (2) cho thấy mạnh mẽ đây là cách giải thích dự định. Lưu ý rằng "sai số" hữu ích khác có thể được xác định, quá, chẳng hạn như điều khoản và lệch lạc lỗi được mô tả trong Hosmer & Lemeshow (và, tùy thuộc vào hãy cẩn thận phù hợp thảo luận ở đó, quảng trường của họ có xấp xỉ χ 2 phân phối). χ2χ2
whuber

Câu trả lời:


25

Trong các quan sát hồi quy tuyến tính được giả sử tuân theo phân phối Gaussian với tham số trung bình có điều kiện trên các giá trị dự đoán. Nếu bạn trừ giá trị trung bình khỏi các quan sát bạn nhận được lỗi : phân phối Gaussian với giá trị trung bình bằng 0, và không phụ thuộc vào giá trị dự đoán, đó là lỗi tại bất kỳ tập hợp giá trị dự đoán nào theo cùng phân phối.

Trong các quan sát hồi quy logistic được giả sử tuân theo phân phối Bernoulli với tham số trung bình (xác suất) có điều kiện trên các giá trị dự đoán. Vì vậy, đối với bất kỳ giá trị dự đoán đã cho nào xác định giá trị trung bình π , chỉ có hai lỗi có thể xảy ra: 1 - π xảy ra với xác suất π , và 0 - π xảy ra với xác suất 1 - π . Đối với giá trị dự đoán khác các lỗi sẽ được 1 - π ' xảy ra với xác suất π 'y{0,1}π1ππ0π1π1ππ, & xảy ra với xác suất 1 - π ' . Vì vậy, không có phân phối lỗi phổ biến độc lập với các giá trị dự đoán, đó là lý do tại sao mọi người nói "không tồn tại thuật ngữ lỗi" (1).0π1π

"Thuật ngữ lỗi có phân phối nhị thức" (2) chỉ là sự chậm chạp "Các mô hình Gaussian có lỗi Gaussian, các mô hình nhị thức ergo có lỗi nhị thức". (Hoặc, như @whuber chỉ ra, nó có thể được hiểu là "sự khác biệt giữa một quan sát và kỳ vọng của nó có phân phối nhị thức được dịch theo kỳ vọng".)

"Thuật ngữ lỗi có phân phối logistic" (3) phát sinh từ việc lấy hồi quy logistic từ mô hình mà bạn quan sát xem một biến tiềm ẩn có lỗi sau phân phối logistic có vượt quá ngưỡng không. Vì vậy, nó không phải là cùng một lỗi được xác định ở trên. (Có vẻ như có một điều kỳ lạ khi nói IMO bên ngoài bối cảnh đó hoặc không có tham chiếu rõ ràng đến biến tiềm ẩn.)

† Nếu bạn có quan sát với các giá trị dự báo tương tự, cho xác suất cùng π cho mỗi, sau đó tổng của chúng Σ y tuân theo phân phối nhị thức với xác suất π và không. thử nghiệm k . Xét Σ y - k π như dẫn lỗi cho kết luận tương tự.kπyπkykπ


1
Bạn có thể cung cấp một ví dụ đơn giản liên quan đến phần 'không tồn tại thuật ngữ lỗi'. Tôi đang gặp khó khăn để hiểu nó theo cách nó được viết.
quirik

@Scortchi Tôi gặp khó khăn khi theo dõi trường hợp khi trong thực tế mô hình được sử dụng với một số ngưỡng, giả sử 0,5. Sau đó, lỗi là 1 hoặc 0. Điều này có thể được coi là biến ngẫu nhiên Bernoulli với tham số 1- khi nhãn thực là 1 không? π
wợi

17

Điều này đã được bảo hiểm trước đây. Một mô hình bị hạn chế để có các giá trị dự đoán trong có thể không có thuật ngữ lỗi phụ gia sẽ khiến các dự đoán nằm ngoài [ 0 , 1 ] . Hãy nghĩ về ví dụ đơn giản nhất của mô hình logistic nhị phân - mô hình chỉ chứa một phần chặn. Điều này tương đương với bài toán một mẫu Bernoulli, thường được gọi là (trong trường hợp đơn giản này) là bài toán nhị thức vì (1) tất cả thông tin được chứa trong cỡ mẫu và số lượng sự kiện hoặc (2) phân phối Bernoulli là trường hợp đặc biệt của phân phối nhị thức với n = 1[0,1][0,1]n=1. Dữ liệu thô trong tình huống này là một chuỗi các giá trị nhị phân và mỗi giá trị có phân phối Bernoulli với tham số không xác định biểu thị xác suất của sự kiện. Không có thuật ngữ lỗi trong phân phối Bernoulli, chỉ có một xác suất không xác định. Mô hình logistic là một mô hình xác suất.θ


9

Đối với tôi, sự thống nhất của hồi quy logistic, tuyến tính, poisson, v.v ... luôn luôn là về đặc điểm kỹ thuật của giá trị trung bình và phương sai trong khung Mô hình tuyến tính tổng quát. Chúng tôi bắt đầu bằng cách chỉ định phân phối xác suất cho dữ liệu của mình, thông thường đối với dữ liệu liên tục, Bernoulli cho phân đôi, Poisson cho số đếm, v.v ... Sau đó, chúng tôi chỉ định một hàm liên kết mô tả mức trung bình có liên quan đến yếu tố dự báo tuyến tính:

g(μi)=α+xiTβ

Đối với hồi quy tuyến tính, .g(μi)=μi

g(μi)=log(μi1μi)

g(μi)=log(μi)

Điều duy nhất người ta có thể có thể xem xét khi viết một thuật ngữ lỗi sẽ là:

yi=g1(α+xiTβ)+eiE(ei)=0Var(ei)=σ2(μi)σ2(μi)=μi(1μi)=g1(α+xiTβ)(1g1(α+xiTβ)). But, you cannot explicitly state that ei has a Bernoulli distribution as mentioned above.

Note, however, that basic Generalized Linear Models only assume a structure for the mean and variance of the distribution. It can be shown that the estimating equations and the Hessian matrix only depend on the mean and variance you assume in your model. So you don't necessarily need to be concerned with the distribution of ei for this model because the higher order moments don't play a role in the estimation of the model parameters.


0
  1. No errors exist. We are modeling the mean! The mean is just a true number.
  2. This doesn't make sense to me.
  3. Think the response variable as a latent variable. If you assume the error term is normally distributed, then the model becomes a probit model. If you assume the distribution of the error term is logistic, then the model is logistic regression.

2
I fail to see how this helps one understand a probability model. Probability models are simpler than this makes it seem.
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.