Sử dụng MSE thay vì mất log trong hồi quy logistic


9

Giả sử chúng ta thay thế hàm mất mát của hồi quy logistic (thường là khả năng log) bằng MSE. Nghĩa là, vẫn có tỷ lệ chênh lệch log là một hàm tuyến tính của các tham số, nhưng giảm thiểu tổng số chênh lệch bình phương giữa xác suất ước tính và kết quả (được mã hóa là 0/1):

logp1p=β0+β1x1+...+βnxn

và thu nhỏ thay vì .(yipi)2[yilogpi+(1yi)log(1pi)]

Tất nhiên, tôi hiểu tại sao khả năng đăng nhập có ý nghĩa theo một số giả định. Nhưng trong học máy, nơi mà các giả định thường không được thực hiện, lý do trực quan của MSE là hoàn toàn không hợp lý? (Hoặc có những tình huống mà MSE có thể có ý nghĩa?).


Bạn có thể sử dụng MSE làm tiêu chí tối ưu hóa của mình nhưng trong trường hợp đó bạn không nên tối ưu hóa nó với khả năng tối đa nhưng với một biến thể của độ dốc gốc. Đây là cơ bản những gì các perceptionron tuyến tính làm.
Digio

Câu trả lời:


12

Câu trả lời ngắn gọn là lý thuyết khả năng tồn tại để hướng dẫn chúng ta hướng tới các giải pháp tối ưu và tối đa hóa một cái gì đó ngoài khả năng, khả năng bị phạt hoặc mật độ sau của Bayes trong các ước lượng dưới mức tối ưu. Thứ hai, giảm thiểu tổng số lỗi bình phương dẫn đến ước tính không thiên vị về xác suất thực. Ở đây bạn không mong muốn các ước tính không thiên vị, bởi vì để có các ước tính đó có thể âm hoặc lớn hơn một. Để ước tính đúng ràng buộc, đòi hỏi người ta phải có được ước tính hơi thiên vị (về giữa) nói chung, trên thang đo xác suất (không phải logit).

Đừng tin rằng các phương pháp học máy không đưa ra các giả định. Vấn đề này ít liên quan đến học máy.

Lưu ý rằng một tỷ lệ riêng lẻ là một ước tính không thiên vị về xác suất thực, do đó một mô hình logistic nhị phân chỉ có một phần chặn cung cấp một ước tính không thiên vị. Một mô hình logistic nhị phân với một yếu tố dự đoán duy nhất có loại loại trừ lẫn nhau sẽ cung cấp ước tính không thiên vị về xác suất. Tôi nghĩ rằng một mô hình tận dụng các giả định gây nghiện và cho phép người dùng yêu cầu các ước tính ngoài phạm vi dữ liệu (ví dụ: một công cụ dự đoán duy nhất liên tục) sẽ có độ lệch nhỏ trên thang đo xác suất để tôn trọng hạn chế.kk[0,1]


4

Mặc dù câu trả lời của Frank Harrell là chính xác, tôi nghĩ rằng nó bỏ lỡ phạm vi của câu hỏi. Câu trả lời cho câu hỏi của bạn là , MSE sẽ có ý nghĩa trong một kịch bản không tham số ML. Tương đương ML của hồi quy logistic là perceptionron tuyến tính, không giả định và không sử dụng MSE làm hàm chi phí. Nó sử dụng gốc dốc trực tuyến để đào tạo tham số và, vì nó giải quyết được vấn đề tối ưu hóa lồi, ước tính tham số nên ở mức tối ưu toàn cầu. Sự khác biệt chính giữa hai phương pháp là với cách tiếp cận không theo tỷ lệ, bạn không có được khoảng tin cậy và giá trị p và do đó bạn không thể sử dụng mô hình của mình để suy luận, bạn chỉ có thể sử dụng nó để dự đoán.

Perceptionron tuyến tính làm cho không có giả định xác suất. Có giả định trên dữ liệu rằng nó có thể phân tách tuyến tính, nhưng đây không phải là giả định trên mô hình. Về mặt lý thuyết, MSE có thể bị ảnh hưởng bởi tính không đồng nhất nhưng trong thực tế, hiệu ứng này bị vô hiệu hóa bởi chức năng kích hoạt.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.