Tại sao hồi quy logistic được hiệu chỉnh tốt, và làm thế nào để làm hỏng hiệu chuẩn của nó?


9

Trong scikit tìm hiểu các tài liệu về hiệu chuẩn xác suất, họ so sánh hồi quy logistic với các phương pháp khác và nhận xét rằng rừng ngẫu nhiên được hiệu chuẩn kém hơn so với hồi quy logistic.

Tại sao hồi quy logistic hiệu chỉnh tốt? Làm thế nào người ta có thể phá hỏng sự hiệu chuẩn của hồi quy logistic (không phải là điều người ta muốn - giống như một bài tập)?

Câu trả lời:


4

Mặc dù câu hỏi này và câu trả lời đầu tiên của nó dường như tập trung vào các vấn đề lý thuyết về hiệu chuẩn mô hình hồi quy logistic, vấn đề:

Làm thế nào người ta có thể phá hỏng sự hiệu chuẩn của hồi quy logistic ...?

xứng đáng được chú ý đối với các ứng dụng trong thế giới thực, dành cho những độc giả tương lai của trang này. Chúng ta không nên quên rằng mô hình hồi quy logistic phải được chỉ định rõ và vấn đề này có thể đặc biệt rắc rối đối với hồi quy logistic.

Đầu tiên, nếu tỷ lệ cược log của thành viên lớp không liên quan tuyến tính với các yếu tố dự đoán có trong mô hình thì nó sẽ không được hiệu chỉnh tốt. Chương 10 về Hồi quy nhị phân nhị phân của Mitchell dành khoảng 20 trang cho "Đánh giá mức độ phù hợp với mô hình" để người ta có thể tận dụng "tính không thiên vị của công cụ ước tính khả năng tối đa", như @whuber đưa ra, trong thực tế.

Thứ hai, đặc tả mô hình là một vấn đề cụ thể trong hồi quy logistic, vì nó có một sai lệch biến bị bỏ qua vốn có thể gây ngạc nhiên cho những người có nền tảng trong hồi quy tuyến tính thông thường. Như trang đó đặt nó:

Các biến bị bỏ qua sẽ thiên vị các hệ số trên các biến được bao gồm ngay cả khi các biến bị bỏ qua không tương thích với các biến được bao gồm.

Trang đó cũng có một lời giải thích hữu ích về lý do tại sao hành vi này được mong đợi, với một lời giải thích lý thuyết cho các mô hình probit có thể phân tích, có thể phân tích. Vì vậy, trừ khi bạn biết rằng bạn đã bao gồm tất cả các yếu tố dự đoán liên quan đến tư cách thành viên của lớp, bạn có thể gặp nguy hiểm về lỗi chính tả và hiệu chuẩn kém trong thực tế.

Đối với đặc tả mô hình, hoàn toàn có khả năng các phương pháp dựa trên cây như rừng ngẫu nhiên, không giả định tuyến tính trên toàn bộ phạm vi của các giá trị dự đoán và vốn đã cung cấp khả năng tìm kiếm và bao gồm cả tương tác giữa các yếu tố dự đoán, sẽ kết thúc tốt hơn mô hình hiệu chuẩn trong thực tế hơn mô hình hồi quy logistic không tính đến các thuật ngữ tương tác hoặc phi tuyến tính đủ. Đối với sai lệch biến bị bỏ qua, tôi không rõ liệu có phương pháp nào để đánh giá xác suất thành viên lớp có thể giải quyết vấn đề đó một cách thỏa đáng hay không.


5

Hồi quy logistic là một phương pháp phân loại về cơ bản học một hàm xác suất trên không gian đầu vào bằng cách khớp các tham số . Nếu xác suất dự đoán được học với hàm mất thích hợp, thì hơn hồi quy logistic có khả năng học ước lượng không thiên vị của xác suất sự kiện nhị phân, bất cứ khi nào nó có đủ năng lực (tính năng đầu vào).πθ(x)θ

Mất log cho phép ước tính không thiên vị như vậy. Hãy xem xét thực tế rằng hàm mất nhật ký chỉ đơn giản là khả năng nhật ký âm của phân phối Bernoulli . Ước tính khả năng tối đa cho là không thiên vị cho một tập hợp các quan sát cho biến . Trong trường hợp phân loại theo một số không gian đầu vào , người ta có thể tưởng tượng có một phân phối Bernoulli cho tất cả các điểm trong . Thông thường, bạn sẽ chỉ có 1 quan sátzBer(p)pzXXyixiyiBer(π(xi))πθπθπ

Sử dụng một mô hình quan sát không chính xác với hồi quy logistic sẽ dẫn đến xác suất không được hiệu chỉnh. Mô hình hóa các sự kiện nhị phân với phân phối bình thường là không phù hợp và không nên được sử dụng kết hợp với hồi quy logistic. Hàm mất tương ứng với mô hình quan sát phân phối bình thường là Lỗi bình phương trung bình. Do đó, việc sử dụng tổn thất MSE chắc chắn sẽ cản trở việc hiệu chuẩn của nó.


2
Gọi cẩn thận hồi quy logistic một phương pháp phân loại trên trang web này! Cảm ơn bạn đã trả lời - có vẻ như bạn đang ám chỉ rằng mục tiêu mất log là lý do để hiệu chuẩn (giả sử mô hình là đủ linh hoạt)?
user0

1
Theo dõi - bạn nói hiệu chuẩn yêu cầu ước tính không thiên vị về xác suất - do đó hình phạt hủy hoại hiệu chuẩn?
user0

«LogisticRegression trả về các dự đoán được hiệu chỉnh tốt theo mặc định vì nó trực tiếp tối ưu hóa mất log» - scikit-learn.org/ sóng / modules / calibr.html
cortax

Theo định nghĩa, hình phạt hoặc chính quy, là một mũi tiêm thiên vị thường tìm cách giảm phương sai của công cụ ước tính. Một sự chính quy hóa lớn có thể chi phối phần dữ liệu của hàm mục tiêu và chắc chắn làm hỏng hiệu chuẩn.
cortax

2
Trích dẫn scikit-learn về "tối ưu hóa mất log" không phải là một lời giải thích hiệu quả, bởi vì không có mối liên hệ cần thiết nào giữa việc này và không thiên vị. Trừ khi tôi nhầm, câu trả lời chính xác cho câu hỏi sẽ cần phải gọi ra tính không thiên vị tiệm cận của công cụ ước tính khả năng tối đa thường được sử dụng trong các thủ tục hồi quy logistic.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.