Có giả định iid về hồi quy logistic?


18

Có giả định iid về biến phản ứng của hồi quy logistic không?

Ví dụ: giả sử chúng ta có điểm dữ liệu. Có vẻ như phản hồi đến từ bản phân phối Bernoulli với . Do đó, chúng ta nên có phân phối Bernoulli, với tham số khác nhau .Y i p i = logit ( β 0 + β 1 x i ) 1000 p1000Yipi=logit(β0+β1xi)1000p

Vì vậy, chúng "độc lập", nhưng không "giống hệt".

Tôi có đúng không


Tái bút Tôi đã học hồi quy logistic từ tài liệu "học máy", trong đó chúng tôi tối ưu hóa chức năng mục tiêu và kiểm tra xem nó có tốt trong việc kiểm tra dữ liệu hay không mà không nói quá nhiều về các giả định.

Câu hỏi của tôi bắt đầu với bài đăng này Hiểu chức năng liên kết trong Mô hình tuyến tính tổng quát Nơi tôi cố gắng tìm hiểu thêm về các giả định thống kê.


1
Một "giả định" là một cái gì đó mà một định lý có thể có. Hồi quy tuyến tính có một "giả định" lỗi iid (nó không phải s được "giả" là iid trong hồi quy tuyến tính! Đó là lỗi) theo nghĩa rằng Gauss-Markov lý có giả định này. Bây giờ, có bất kỳ định lý nào mà người ta có một tâm trí cho hồi quy logistic không? Nếu không, thì không có "giả định". y
amip nói rằng Phục hồi lại

7
@Amoeba, hxd là chính xác khi lưu ý các bản phân phối không giống nhau: "iid" không áp dụng. Nếu một người đang sử dụng hồi quy logistic chỉ cho phù hợp với nó, thì (như bạn viết) có lẽ cần vài giả định; nhưng ngay khi người ta sử dụng ma trận hiệp phương sai ước tính của các hệ số hoặc mong muốn xây dựng các khoảng dự đoán (hoặc, đối với vấn đề đó, xác thực chéo các giá trị dự đoán), thì điều đó đòi hỏi các giả định xác suất. Một trong những thông thường là các phản ứng là độc lập.
whuber

4
@amoeba một khi bạn muốn thực hiện suy luận (kiểm tra giả thuyết, khoảng tin cậy, v.v.) chứ không chỉ đơn giản là tính toán các ước tính của các tham số, bạn sẽ tạo ra một loạt các giả định (một số quan trọng hơn các giả định khác) để có thể rút ra phân phối null có liên quan của kiểm tra thống kê hoặc các tính toán cần thiết cho một khoảng với phạm vi bảo hiểm mong muốn. Ngay cả các thủ tục giả định tương đối thấp vẫn có các giả định và nếu chúng ta quan tâm đến các suy luận của mình, chúng ta sẽ quan tâm đến việc liệu chúng có khả năng có thứ gì đó gần các đặc tính danh nghĩa của chúng hay không.
Glen_b -Reinstate Monica

1
@amoeba, tôi thích một định lý cho thấy tính quy luật tiệm cận của MLE. Tôi cũng thích thử nghiệm tỷ lệ khả năng.
game thủ

2
Phân phối biên của chúng không giống nhau trừ khi tất cả chúng có cùng giá trị dự đoán, trong trường hợp đó bạn chỉ cần dùng thử IID bernoulli. Các bản phân phối có điều kiện của họ (được đưa ra dự đoán) đều giống nhau, nhưng tôi không nghĩ bạn thường nói trong trường hợp này là IID. Yi
game thủ

Câu trả lời:


11

Từ câu hỏi trước của bạn, bạn đã học được rằng GLM được mô tả theo phân phối xác suất, bộ dự báo tuyến tính và hàm liên kết gđược mô tả làηg

η=XβE(Y|X)=μ=g1(η)

Trong đó là hàm liên kết logit và Y được giả sử tuân theo phân phối BernoulligY

YiB(μi)

mỗi sau phân phối với Bernoulli bình riêng của nó μ i có nghĩa là có điều kiện trên X . Chúng tôi không giả định rằng mỗi Y i đến từ cùng một phân phối, với cùng một giá trị trung bình (đây sẽ là mô hình chỉ đánh chặn Y i = g - 1 ( μ ) ), nhưng tất cả chúng đều có các phương tiện khác nhau. Chúng tôi giả định rằng Y iđộc lập , tức là chúng tôi không phải lo lắng về những điều như tự động tương quan giữa các giá trị Y i tiếp theo, v.v.Yi μiXYiYi=g1(μ)YiYi

Các iid giả định có liên quan đến sai sót trong hồi quy tuyến tính (tức là Gaussian GLM), nơi mà các mô hình là

yi=β0+β1xi+εi=μi+εi

nơi , vì vậy chúng tôi có iid tiếng ồn xung quanh μ i . Đây là lý do tại sao quan tâm đến chẩn đoán dư và chú ý đến phần dư so với âm mưu được trang bị . Bây giờ, trong trường hợp hồi quy logistic của GLM, điều đó không đơn giản vì không có thuật ngữ nhiễu phụ gia như với mô hình Gaussian (xem tại đây , đâyđâyεiN(0,σ2)μi). Chúng tôi vẫn muốn số dư là "ngẫu nhiên" quanh 0 và chúng tôi không muốn thấy bất kỳ xu hướng nào trong chúng vì chúng sẽ gợi ý rằng có một số hiệu ứng không được tính trong mô hình, nhưng chúng tôi không cho rằng chúng là bình thường và / hoặc iid . Xem thêm về tầm quan trọng của giả định iid trong chủ đề học thống kê .

Là một sidenote, lưu ý rằng chúng ta thậm chí có thể loại bỏ giả định rằng mỗi đến từ cùng một loại phân phối. Có (không GLM) mô hình đó cho rằng khác nhau Y i 's có thể có các bản phân phối khác nhau với các thông số khác nhau, tức là dữ liệu của bạn xuất phát từ một hỗn hợp của các bản phân phối khác nhau . Trong trường hợp như vậy, chúng tôi cũng cho rằng các giá trị Y iđộc lập , vì các giá trị phụ thuộc, đến từ các phân phối khác nhau với các tham số khác nhau (tức là dữ liệu trong thế giới thực điển hình) là điều mà trong hầu hết các trường hợp sẽ quá phức tạp để mô hình hóa (thường là không thể) .YiYiYi


6

Như đã nêu, trong khi chúng ta thường xem xét trường hợp lỗi iid trong hồi quy tuyến tính, thì điều này không có tương đương trực tiếp trong hầu hết các mô hình tuyến tính tổng quát (bao gồm cả hồi quy logistic). Trong hồi quy logistic, chúng tôi thường sử dụng giả định về tính độc lập của các kết quả mà tất cả đều có mối quan hệ rất nghiêm ngặt (nghĩa là ảnh hưởng tuyến tính đến xác suất đăng nhập). Nhưng những kết quả này trong các biến ngẫu nhiên không giống nhau, cũng không thể phân tách thành một thuật ngữ không đổi cộng với lỗi iid như trường hợp với hồi quy tuyến tính.

Nếu bạn thực sự muốn chỉ ra rằng các phản hồi có một số loại quan hệ iid, thì hãy theo dõi tôi cho đoạn tiếp theo. Chỉ biết rằng ý tưởng này là một chút ra khỏi con đường bị đánh đập; bạn có thể không nhận được tín dụng đầy đủ cho phản hồi này trong trận chung kết nếu giáo sư của bạn thiếu kiên nhẫn.

XFXXquniform(0,1)X=FX1(q)p=expit(βo+β1x)FY(y|p)pYi

pi=expit(βo+β1xi)

qiuniform(0,1)

Yi=F1(qi|pi)

qi


1
qiYiB(pi)Yipiqi

@Tim: vâng, phần thứ hai của câu trả lời là một ghi chú bên lề thú vị hơn là một câu trả lời súc tích. Nhưng nó có thể là một cách hữu ích để xem xét nó; xét cho cùng, về cơ bản, đó là cách máy tính của bạn mô phỏng dữ liệu từ các mô hình này!
Vách đá AB
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.