Có thể vượt qua một mô hình hồi quy logistic? Tôi đã xem một video nói rằng nếu khu vực của tôi dưới đường cong ROC cao hơn 95%, thì rất có thể nó sẽ được trang bị quá mức, nhưng liệu có thể phù hợp với mô hình hồi quy logistic không?
Có thể vượt qua một mô hình hồi quy logistic? Tôi đã xem một video nói rằng nếu khu vực của tôi dưới đường cong ROC cao hơn 95%, thì rất có thể nó sẽ được trang bị quá mức, nhưng liệu có thể phù hợp với mô hình hồi quy logistic không?
Câu trả lời:
Có, bạn có thể overfit mô hình hồi quy logistic. Nhưng trước tiên, tôi muốn đề cập đến vấn đề về AUC (Khu vực dưới đường cong đặc trưng hoạt động của người nhận): Không có quy tắc chung nào về AUC, chưa từng có.
Điều AUC là xác suất rằng một mẫu dương tính (hoặc trường hợp) được lấy mẫu ngẫu nhiên sẽ có giá trị đánh dấu cao hơn âm (hoặc kiểm soát) vì AUC tương đương về mặt toán học với thống kê U.
Những gì AUC không phải là một thước đo tiêu chuẩn về độ chính xác dự đoán. Các sự kiện có tính quyết định cao có thể có AUC dự đoán duy nhất từ 95% trở lên (như trong cơ điện tử có kiểm soát, robot hoặc quang học), một số mô hình dự báo rủi ro logistic đa biến phức tạp có AUC từ 64% trở xuống như dự đoán rủi ro ung thư vú, và đó là mức độ chính xác dự đoán cao.
Một giá trị AUC hợp lý, như với một phân tích sức mạnh, được quy định trước bằng cách thu thập kiến thức về nền tảng và mục đích của một apriori nghiên cứu . Bác sĩ / kỹ sư mô tả những gì họ muốn và bạn, nhà thống kê, giải quyết giá trị AUC mục tiêu cho mô hình dự đoán của bạn. Sau đó bắt đầu điều tra.
Nó thực sự có thể phù hợp với một mô hình hồi quy logistic. Ngoài sự phụ thuộc tuyến tính (nếu ma trận mô hình có thứ hạng thiếu), bạn cũng có thể có sự phù hợp hoàn hảo, hoặc đó là âm mưu của các giá trị được trang bị chống lại Y hoàn toàn phân biệt các trường hợp và điều khiển. Trong trường hợp đó, các thông số của bạn chưa hội tụ nhưng đâu đó chỉ đơn giản là cư trú trên không gian ranh giới cung cấp cho một khả năng . Tuy nhiên, đôi khi, AUC là 1 do cơ hội ngẫu nhiên một mình.
Nói một cách đơn giản .... một mô hình hồi quy logistic quá mức có phương sai lớn, có nghĩa là sự thay đổi quyết định thay đổi phần lớn cho sự thay đổi nhỏ về cường độ thay đổi. Hãy xem xét hình ảnh sau đây, hầu hết một bên phải là mô hình logistic quá mức, ràng buộc quyết định của nó có lớn không. của những thăng trầm trong khi người trung gian chỉ phù hợp với nó có phương sai vừa phải và thiên vị vừa phải. bên trái là underfit nó có độ lệch cao nhưng rất ít phương sai. một điều nữa_ Một mô hình regrresion quá mức có quá nhiều tính năng trong khi mô hình underfit có rất ít không có. của các tính năng.
Bạn có thể phù hợp với bất kỳ phương pháp nào, ngay cả khi bạn phù hợp với toàn bộ dân số (nếu dân số là hữu hạn). Có hai giải pháp chung cho vấn đề: (1) ước tính khả năng tối đa bị phạt (hồi quy sườn, lưới đàn hồi, lasso, v.v.) và (2) sử dụng các linh mục thông tin với mô hình Bayes.
Khi nào có thông tin hạn chế (ví dụ: là nhị phân hoặc phân loại nhưng không có thứ tự), quá mức nghiêm trọng hơn chỉ vì bất cứ khi nào bạn có thông tin thấp, nó giống như có cỡ mẫu nhỏ hơn. Ví dụ: mẫu có kích thước 100 từ liên tục có thể có cùng thông tin với mẫu cỡ 250 từ nhị phân , cho các mục đích của sức mạnh thống kê, độ chính xác và quá mức. Nhị phângiả sử một hiện tượng tất cả hoặc không có gì và có 1 bit thông tin. Nhiều biến liên tục có ít nhất 5 bit thông tin.
Có mô hình nào, bỏ qua hồi quy logistic, rằng nó không thể phù hợp?
Quá mức phát sinh về cơ bản vì bạn phù hợp với một mẫu & không phải toàn bộ dân số. Các tạo tác của mẫu của bạn có thể trông giống như các đặc điểm của dân số và chúng không phải do đó làm tổn thương quá mức.
Nó giống như một câu hỏi về tính hợp lệ bên ngoài. Chỉ sử dụng mẫu mà bạn đang cố gắng để có được một mô hình mang lại cho bạn hiệu suất tốt nhất trên dân số thực mà bạn không thể nhìn thấy.
Chắc chắn, một số hình thức hoặc quy trình mô hình có nhiều khả năng phù hợp hơn so với những mô hình khác nhưng không có mô hình nào thực sự miễn dịch với quá mức, phải không?
Ngay cả xác nhận ngoài mẫu, quy trình chính quy, vv chỉ có thể bảo vệ chống lại sự phù hợp quá mức nhưng không có viên đạn bạc. Trên thực tế, nếu người ta ước tính sự tự tin của một người trong việc đưa ra dự đoán về thế giới thực dựa trên mô hình được trang bị, người ta phải luôn cho rằng một mức độ quá mức nào đó đã thực sự xảy ra.
Ở mức độ nào có thể khác nhau, nhưng ngay cả một mô hình được xác thực trên bộ dữ liệu tạm giữ sẽ hiếm khi mang lại hiệu suất tự nhiên phù hợp với những gì thu được trên bộ dữ liệu tạm giữ. Và quá mức là một yếu tố gây bệnh lớn.
Những gì chúng tôi làm với Roc để kiểm tra quá mức là tách ngẫu nhiên bộ dữ liệu trong đào tạo và định giá và so sánh AUC giữa các nhóm đó. Nếu AUC là "nhiều" (cũng không có quy tắc ngón tay cái) lớn hơn trong đào tạo thì có thể có quá nhiều.