Dư lượng cho hồi quy logistic và khoảng cách của Cook


10
  1. Có bất kỳ giả định cụ thể nào liên quan đến các lỗi về hồi quy logistic như phương sai không đổi của các điều khoản lỗi và tính quy tắc của phần dư không?

  2. Ngoài ra, thông thường khi bạn có các điểm có khoảng cách của Cook lớn hơn 4 / n, bạn có xóa chúng không? Nếu bạn loại bỏ chúng, làm thế nào bạn có thể biết nếu mô hình với các điểm bị loại bỏ là tốt hơn?

Câu trả lời:


12

Tôi không biết liệu tôi có thể cho bạn một câu trả lời hoàn chỉnh không, nhưng tôi có thể cho bạn một vài suy nghĩ có thể hữu ích. Đầu tiên, tất cả các mô hình / kiểm tra thống kê đều có giả định. Tuy nhiên, hồi quy logistic rất nhiều không cho rằng phần dư được phân phối bình thường cũng như phương sai không đổi. Thay vào đó, người ta cho rằng dữ liệu được phân phối dưới dạng nhị thức, , nghĩa là, với số lượng thử nghiệm Bernoulli bằng với số lượng quan sát tại bộ chính xác đó của các giá trị hiệp biến và với xác suất liên quan đến tập hợp các giá trị hiệp biến đó. Hãy nhớ rằng phương sai của nhị thức là . Như vậy, nếuB(nxi,pxi)np(1p)nSự khác nhau ở các mức khác nhau của hiệp phương sai, phương sai cũng sẽ như vậy. Hơn nữa, nếu bất kỳ hiệp phương sai nào đều liên quan đến biến trả lời, thì xác suất sẽ thay đổi, và do đó, phương sai cũng vậy. Đây là những sự thật quan trọng về hồi quy logistic.

Thứ hai, so sánh mô hình thường được thực hiện giữa các mô hình với các thông số kỹ thuật khác nhau (ví dụ: với các tập hợp số khác nhau được bao gồm), không vượt qua các tập hợp con khác nhau của dữ liệu. Thành thật mà nói, tôi không chắc làm thế nào điều đó sẽ được thực hiện đúng. Với mô hình tuyến tính, bạn có thể nhìn vào 2 giây để xem mức độ phù hợp tốt hơn với dữ liệu sai lệch được loại trừ, nhưng điều này chỉ mang tính mô tả và bạn nên biết rằng sẽ phải tăng lên. Tuy nhiên, với hồi quy logistic, tiêu chuẩn không thể được sử dụng. Có nhiều giả khác nhau -R2R2R2R2s 'đã được phát triển để cung cấp thông tin tương tự, nhưng chúng thường được coi là thiếu sót và không thường được sử dụng. Đối với một tổng quan về các khác nhau pseudo- s mà tồn tại, xem ở đây . Đối với một số thảo luận, và chỉ trích, trong số họ, xem ở đây . Một khả năng khác có thể là thông qua các betas có và không có các ngoại lệ để xem cách loại trừ chúng góp phần ổn định phân phối lấy mẫu của chúng. Một lần nữa, đây chỉ là mô tả (nghĩa là nó sẽ không tạo thành một thử nghiệm để cho bạn biết mô hình nào - er, tập hợp con của dữ liệu của bạn - thích) và phương sai sẽ phải đi xuống. Những điều này là đúng, cho cả giả-R2R2s và các bản phân phối không xác định, bởi vì bạn đã chọn những dữ liệu đó để loại trừ dựa trên thực tế là chúng có vẻ cực đoan.


8

1) Có bất kỳ giả định cụ thể nào liên quan đến các lỗi về hồi quy logistic như phương sai không đổi của các điều khoản lỗi và tính quy tắc của phần dư không?

Các mô hình hồi quy logistic không có "lỗi" theo nghĩa truyền thống. Nó là cả hai phản trực giác và phương pháp không nhất quán. Các đầu ra mô hình được xác định phù hợp hoặc rủi ro trong khi các kết quả quan sát được là 0/1 chỉ báo sự kiện. Về mặt phương pháp, bạn sẽ có xu hướng nhấn mạnh dưới các miền có xác suất được trang bị rất cao hoặc rất thấp (đóng góp một lượng rất nhỏ vào khoảng cách còn lại) trong khi thuật toán phù hợp mô hình đặt tầm quan trọng cao hơn đáng kể trên các vùng đó. Khoảng cách bình phương nói chung là một cách kém để hiệu chỉnh mô hình hồi quy logistic.

Một ưu điểm khác của kiểm tra sự phù hợp là kiểm tra Hosmer-Lemeshow trong đó các giá trị được trang bị được sử dụng để tạo các phân vùng có giá trị dựa trên các phân tách rủi ro được trang bị. Bạn có thể đọc về bài kiểm tra này trong Phân tích dữ liệu phân loại của Alan Agresti hoặc cuốn sách Hồi quy logistic của Hosmer và Lemeshow. Một quy trình khác là sử dụng Phần dư sinh viên trong đó mối quan hệ phương sai trung bình được sử dụng để đánh giá lại phần dư bằng phương sai nghịch đảo được trang bị của chúng . Đối với hồi quy logistic, đây là

rstud=Yμμ(1μ)

2) Thông thường, khi bạn có các điểm có khoảng cách của Cook lớn hơn 4 / n, bạn có xóa chúng không? Nếu bạn loại bỏ chúng, làm thế nào bạn có thể biết nếu mô hình với các điểm bị loại bỏ là tốt hơn?

Tôi không bao giờ loại bỏ điểm dựa trên phân tích độ nhạy. Nếu tôi làm một mẫu ngẫu nhiên 100 người và thu nhập của họ và 1 người là tỷ phú, thì giả định an toàn nhất của tôi là 1 tỷ phú đại diện cho 1/100 dân số.


Tại sao bạn lại cho rằng tỷ phú 1 đại diện cho 1/100 dân số? Bạn có thể sẽ có được một ước tính bên ngoài về tỷ lệ tỷ phú trong dân số!
kjetil b halvorsen

6

Tôi đồng ý với nhận xét của AdamO ở trên nói chung, giả sử rằng 1 tỷ phú đại diện cho 1/100 dân số là hoàn toàn tốt. Tuy nhiên, nếu sự hiện diện của 1 tỷ phú làm lệch dữ liệu đến mức dự đoán cho 99 người khác bị ảnh hưởng, tôi sẽ loại bỏ 1 tỷ phú. Tôi thà sai với dự đoán về một ngoại lệ hơn những người khác.

Phải nói rằng, nếu bạn xóa các điểm dữ liệu bằng các giá trị D của Cook (nghĩa là mọi thứ> 4 / df), thì bạn có thể sử dụng vùng bên dưới các đường cong ROC cho cả hai mô hình để kiểm tra sự cải thiện.


1
. Loại bỏ anh ta cho thấy bạn rất vui khi không đưa ra dự đoán cho các tỷ phú khác (đủ công bằng) thay vì vui mừng khi đưa ra dự đoán sai về họ.
Scortchi - Phục hồi Monica

Trớ trêu thay, khi dự đoán các sự kiện nhị phân, đúng là loại trừ các quan sát có ảnh hưởng có thể dẫn đến hiệu chuẩn tốt hơn các dự đoán rủi ro. Tuy nhiên, loại trừ các quan sát có ảnh hưởng sẽ làm giảm sự phân biệt đối xử của các dự đoán rủi ro. Cái sau được cho là quan trọng hơn. Khi dự đoán rủi ro của một sự kiện nào đó (là 0 hoặc 1, không liên tục có giá trị), loại dự đoán tốt nhất sẽ đẩy dự đoán của các trường hợp đến gần 1 và dự đoán của kiểm soát gần hơn 0. Các điểm ảnh hưởng cao thường có hiệu quả lúc làm việc này
AdamO
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.