Quá nhiều mô hình hồi quy logistic


28

Có thể vượt qua một mô hình hồi quy logistic? Tôi đã xem một video nói rằng nếu khu vực của tôi dưới đường cong ROC cao hơn 95%, thì rất có thể nó sẽ được trang bị quá mức, nhưng liệu có thể phù hợp với mô hình hồi quy logistic không?


1
Bạn có thể nói video nào, hoặc ít nhất là cung cấp thêm một chút bối cảnh không?
Glen_b -Reinstate Monica

2
Chắc chắn @Glen_b, video là thế này: link Nhận xét là lúc 40 phút. Người ta nói rằng: khi ROC có AUC trong khoảng 0,5 đến 0,6 thì thật là kém. Nếu trong khoảng từ 0,6 đến 0,7 thì nó dưới mức trung bình. Nếu trong khoảng từ 0,7 đến 0,75 thì trung bình / Tốt. Nó betwwen 0,75 và 0,8 nó tốt. Nếu từ 0,8 đến 0,9 thì Excelent của nó. Nếu cao hơn 0,9 thì nó bị nghi ngờ và nếu cao hơn 0,95 thì nó bị quá mức. Tôi đã tìm thấy lời giải thích đó rất dễ hiểu, nhưng nó đúng không? Bởi vì tôi đang tìm kiếm thứ gì đó để sao lưu ý nghĩ đó nhưng tôi không tìm thấy.
carlosesubarreto

Và Glen_B, lời giải thích mà @AdamO đưa ra dường như lời giải thích mà tôi thấy trên video không chính xác, nhưng có lẽ tôi đã giải thích sai về lời giải thích của Adam. Những thứ Statiscs này rất phức tạp, nhưng đó là niềm vui thực sự để đào sâu vào nó. :)
carlosesubarreto

Tôi nghĩ rằng lời giải thích của AdamO là tốt (tôi đã nâng cao nó), nhưng các câu hỏi được cho là tài nguyên vĩnh viễn; một người đọc sau này (ví dụ như ai đó có câu hỏi tương tự) có thể muốn bối cảnh biết những gì đã được nói. Tôi nghĩ rằng mô tả của bạn trong bình luận cung cấp đủ ngữ cảnh cho hầu hết mọi người và liên kết sẽ làm cho phần còn lại. Cảm ơn! Bạn đã làm cho câu hỏi của bạn hữu ích hơn.
Glen_b -Reinstate Monica

Rất cám ơn @Glen_b, tôi đã học cách sử dụng công cụ tuyệt vời này mà chúng tôi có (diễn đàn này). Tôi sẽ ghi nhớ mẹo của bạn khi đặt câu hỏi mới.
carlosesubarreto

Câu trả lời:


35

Có, bạn có thể overfit mô hình hồi quy logistic. Nhưng trước tiên, tôi muốn đề cập đến vấn đề về AUC (Khu vực dưới đường cong đặc trưng hoạt động của người nhận): Không có quy tắc chung nào về AUC, chưa từng có.

Điều AUC xác suất rằng một mẫu dương tính (hoặc trường hợp) được lấy mẫu ngẫu nhiên sẽ có giá trị đánh dấu cao hơn âm (hoặc kiểm soát) vì AUC tương đương về mặt toán học với thống kê U.

Những gì AUC không phải là một thước đo tiêu chuẩn về độ chính xác dự đoán. Các sự kiện có tính quyết định cao có thể có AUC dự đoán duy nhất từ ​​95% trở lên (như trong cơ điện tử có kiểm soát, robot hoặc quang học), một số mô hình dự báo rủi ro logistic đa biến phức tạp có AUC từ 64% trở xuống như dự đoán rủi ro ung thư vú, và đó là mức độ chính xác dự đoán cao.

Một giá trị AUC hợp lý, như với một phân tích sức mạnh, được quy định trước bằng cách thu thập kiến ​​thức về nền tảng và mục đích của một apriori nghiên cứu . Bác sĩ / kỹ sư mô tả những gì họ muốn và bạn, nhà thống kê, giải quyết giá trị AUC mục tiêu cho mô hình dự đoán của bạn. Sau đó bắt đầu điều tra.

Nó thực sự có thể phù hợp với một mô hình hồi quy logistic. Ngoài sự phụ thuộc tuyến tính (nếu ma trận mô hình có thứ hạng thiếu), bạn cũng có thể có sự phù hợp hoàn hảo, hoặc đó là âm mưu của các giá trị được trang bị chống lại Y hoàn toàn phân biệt các trường hợp và điều khiển. Trong trường hợp đó, các thông số của bạn chưa hội tụ nhưng đâu đó chỉ đơn giản là cư trú trên không gian ranh giới cung cấp cho một khả năng . Tuy nhiên, đôi khi, AUC là 1 do cơ hội ngẫu nhiên một mình.

2βpnπ(1π)π=Prob(Y=1)p


y

π

Làm thế nào để bạn xác định giá trị AUC thích hợp để nhắm đến?
Kevin H. Lin

1
@ KevinH.Lin Nó phụ thuộc vào bản chất của câu hỏi. Bạn càng kết hợp nhiều kiến ​​thức phù hợp theo ngữ cảnh thì càng tốt. Đây sẽ là mức độ phổ biến hoặc gánh nặng bệnh tật hoặc tình trạng mà mô hình đánh giá, hiệu suất của các mô hình (cạnh tranh) hiện tại, sự đánh đổi hiệu quả chi phí và các chính sách xung quanh việc áp dụng các thực tiễn và / hoặc khuyến nghị mới. Không có gì về nó là màu đen và trắng, nhưng giống như rất nhiều thứ, bạn cần phải tranh luận một cách thuyết phục để thuyết phục và lý do ủng hộ một giá trị AUC mà bạn, như nhà thống kê, quy định trước.
AdamO

1
@ KevinH.Lin Tôi không nghĩ bất kỳ câu trả lời hợp lệ nào sẽ rõ ràng và súc tích như câu trả lời mà bạn muốn. Nó giống như hỏi, "Tôi nên mua chiếc xe nào?" :) Tôi đề nghị bạn xem lại các bài viết đã khám phá AUC trong lĩnh vực nghiên cứu thích hợp mà bạn quan tâm. Tôi đã làm việc chủ yếu trong các mô hình dự báo rủi ro ung thư vú và qua các tác phẩm của Tice, Gail và Barlow trong số những người khác thấy rằng AUC 0,65 rất hấp dẫn đối với các mô hình dự đoán dựa trên dân số có tỷ lệ mắc dưới 1-20 trường hợp sự cố trên 5.000 người có nguy cơ sử dụng 7 yếu tố rủi ro có RR btn 1.5 và 3.
AdamO

6

Nói một cách đơn giản .... một mô hình hồi quy logistic quá mức có phương sai lớn, có nghĩa là sự thay đổi quyết định thay đổi phần lớn cho sự thay đổi nhỏ về cường độ thay đổi. Hãy xem xét hình ảnh sau đây, hầu hết một bên phải là mô hình logistic quá mức, ràng buộc quyết định của nó có lớn không. của những thăng trầm trong khi người trung gian chỉ phù hợp với nó có phương sai vừa phải và thiên vị vừa phải. bên trái là underfit nó có độ lệch cao nhưng rất ít phương sai. một điều nữa_ Một mô hình regrresion quá mức có quá nhiều tính năng trong khi mô hình underfit có rất ít không có. của các tính năng. hình ảnh hiển thị mô hình phục hồi logistic underfit, justfit và overfit.  Đánh dấu màu xanh da trời đang hiển thị ràng buộc quyết định.


8
Vui lòng thêm tài liệu tham khảo cho hình ảnh (thực sự là khóa học của Andrew Ng).
Alexander Rodin

5

Bạn có thể phù hợp với bất kỳ phương pháp nào, ngay cả khi bạn phù hợp với toàn bộ dân số (nếu dân số là hữu hạn). Có hai giải pháp chung cho vấn đề: (1) ước tính khả năng tối đa bị phạt (hồi quy sườn, lưới đàn hồi, lasso, v.v.) và (2) sử dụng các linh mục thông tin với mô hình Bayes.

Khi nào Ycó thông tin hạn chế (ví dụ: là nhị phân hoặc phân loại nhưng không có thứ tự), quá mức nghiêm trọng hơn chỉ vì bất cứ khi nào bạn có thông tin thấp, nó giống như có cỡ mẫu nhỏ hơn. Ví dụ: mẫu có kích thước 100 từ liên tụcY có thể có cùng thông tin với mẫu cỡ 250 từ nhị phân Y, cho các mục đích của sức mạnh thống kê, độ chính xác và quá mức. Nhị phânYgiả sử một hiện tượng tất cả hoặc không có gì và có 1 bit thông tin. Nhiều biến liên tục có ít nhất 5 bit thông tin.


4

Có mô hình nào, bỏ qua hồi quy logistic, rằng nó không thể phù hợp?

Quá mức phát sinh về cơ bản vì bạn phù hợp với một mẫu & không phải toàn bộ dân số. Các tạo tác của mẫu của bạn có thể trông giống như các đặc điểm của dân số và chúng không phải do đó làm tổn thương quá mức.

Nó giống như một câu hỏi về tính hợp lệ bên ngoài. Chỉ sử dụng mẫu mà bạn đang cố gắng để có được một mô hình mang lại cho bạn hiệu suất tốt nhất trên dân số thực mà bạn không thể nhìn thấy.

Chắc chắn, một số hình thức hoặc quy trình mô hình có nhiều khả năng phù hợp hơn so với những mô hình khác nhưng không có mô hình nào thực sự miễn dịch với quá mức, phải không?

Ngay cả xác nhận ngoài mẫu, quy trình chính quy, vv chỉ có thể bảo vệ chống lại sự phù hợp quá mức nhưng không có viên đạn bạc. Trên thực tế, nếu người ta ước tính sự tự tin của một người trong việc đưa ra dự đoán về thế giới thực dựa trên mô hình được trang bị, người ta phải luôn cho rằng một mức độ quá mức nào đó đã thực sự xảy ra.

Ở mức độ nào có thể khác nhau, nhưng ngay cả một mô hình được xác thực trên bộ dữ liệu tạm giữ sẽ hiếm khi mang lại hiệu suất tự nhiên phù hợp với những gì thu được trên bộ dữ liệu tạm giữ. Và quá mức là một yếu tố gây bệnh lớn.


0

Những gì chúng tôi làm với Roc để kiểm tra quá mức là tách ngẫu nhiên bộ dữ liệu trong đào tạo và định giá và so sánh AUC giữa các nhóm đó. Nếu AUC là "nhiều" (cũng không có quy tắc ngón tay cái) lớn hơn trong đào tạo thì có thể có quá nhiều.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.