Khi nào hồi quy logistic phù hợp?


12

Tôi hiện đang tự dạy mình cách thực hiện phân loại, và cụ thể là tôi đang xem xét ba phương pháp: máy vectơ hỗ trợ, mạng lưới thần kinh và hồi quy logistic. Những gì tôi đang cố gắng để hiểu là tại sao hồi quy logistic sẽ hoạt động tốt hơn so với hai cái kia.

Từ hiểu biết của tôi về hồi quy logistic, ý tưởng là để phù hợp với một chức năng logistic cho toàn bộ dữ liệu. Vì vậy, nếu dữ liệu của tôi là nhị phân, tất cả dữ liệu của tôi có nhãn 0 phải được ánh xạ tới giá trị 0 (hoặc gần với nó) và tất cả dữ liệu của tôi có giá trị 1 sẽ được ánh xạ tới giá trị 1 (hoặc gần với nó). Bây giờ, vì hàm logistic liên tục và trơn tru, nên việc thực hiện hồi quy này đòi hỏi tất cả dữ liệu của tôi phải khớp với đường cong; không có tầm quan trọng lớn hơn được áp dụng cho các điểm dữ liệu gần ranh giới quyết định và tất cả các điểm dữ liệu đóng góp vào sự mất mát theo số tiền khác nhau.

Tuy nhiên, với các máy vectơ hỗ trợ và mạng nơ ron, chỉ những điểm dữ liệu gần ranh giới quyết định mới quan trọng; miễn là một điểm dữ liệu vẫn ở cùng một phía của ranh giới quyết định, nó sẽ đóng góp cùng một tổn thất.

Do đó, tại sao hồi quy logistic sẽ vượt trội hơn so với các máy vectơ hỗ trợ hoặc mạng nơ ron, vì nó "lãng phí tài nguyên" khi cố gắng điều chỉnh một đường cong với nhiều dữ liệu không quan trọng (dễ phân loại), thay vì chỉ tập trung vào dữ liệu khó khăn xung quanh quyết định ranh giới?


5
LR sẽ cung cấp cho bạn các ước tính xác suất trong khi SVM đưa ra các ước tính nhị phân. Điều đó cũng làm cho LR trở nên hữu ích khi không có siêu phẳng tách biệt giữa các lớp. Ngoài ra, bạn phải tính đến độ phức tạp của các thuật toán và các đặc điểm khác như số lượng tham số và độ nhạy.
Bar

Câu trả lời:


28

Trên thực tế, các tài nguyên mà bạn cho là "lãng phí" là trên thực tế, thông tin thu được được cung cấp bởi hồi quy logistic. Bạn bắt đầu với tiền đề sai. Hồi quy logistic không phải là một phân loại. Nó là một ước tính xác suất / rủi ro. Không giống như SVM, nó cho phép và mong đợi "các cuộc gọi gần". Nó sẽ dẫn đến việc ra quyết định tối ưu bởi vì nó không cố lừa tín hiệu dự đoán để kết hợp một chức năng tiện ích tiềm ẩn bất cứ khi nào bạn phân loại các quan sát. Mục tiêu của hồi quy logistic sử dụng ước tính khả năng tối đa là cung cấp các ước tính tối ưu của Prob . Kết quả được sử dụng theo nhiều cách, ví dụ: đường cong thang máy, chấm điểm rủi ro tín dụng, v.v ... Xem cuốn sách Tín hiệu và tiếng ồn của Nate Silver(Y=1|X) cho các lý lẽ thuyết phục có lợi cho lý luận xác suất.

Lưu ý rằng biến phụ thuộc trong hồi quy logistic có thể được mã hóa theo bất kỳ cách nào bạn muốn: 0/1, A / B, yes / no, v.v.Y

Giả định chính của hồi quy logistic là thực sự là nhị phân, ví dụ, nó không được lấy từ một biến phản ứng thứ tự hoặc liên tục cơ bản. Nó, giống như các phương pháp phân loại, là cho các hiện tượng thực sự tất cả hoặc không có gì.Y

Một số nhà phân tích nghĩ rằng hồi quy logistic giả định tính tuyến tính của các hiệu ứng dự đoán trên thang tỷ lệ cược log. Điều đó chỉ đúng khi DR Cox phát minh ra mô hình logistic vào năm 1958 tại thời điểm điện toán không có sẵn để mở rộng mô hình bằng các công cụ như spline hồi quy. Điểm yếu thực sự duy nhất trong hồi quy logistic là bạn cần chỉ định những tương tác nào bạn muốn cho phép trong mô hình. Đối với hầu hết các bộ dữ liệu, điều này trở thành một thế mạnh bởi vì các hiệu ứng chính phụ gia nói chung là các yếu tố dự báo mạnh hơn nhiều so với tương tác và các phương pháp học máy ưu tiên tương đương có thể không ổn định, khó diễn giải và yêu cầu kích thước mẫu lớn hơn so với hồi quy logistic để dự đoán tốt.


6
+1. Thành thật mà nói, tôi chưa bao giờ thấy các SVM là hữu ích. Chúng gợi cảm nhưng chậm tập luyện và ghi điểm - theo kinh nghiệm của tôi - và có rất nhiều sự lựa chọn bạn cần phải sử dụng (bao gồm cả kernel). Mạng lưới thần kinh mà tôi thấy là hữu ích, nhưng cũng có rất nhiều tùy chọn và điều chỉnh. Hồi quy logistic là đơn giản và cho kết quả hiệu chỉnh hợp lý ra khỏi hộp. Hiệu chuẩn là quan trọng để sử dụng trong thế giới thực. Tất nhiên, nhược điểm là nó tuyến tính, do đó không thể phù hợp với dữ liệu cụm, dữ liệu cục bộ cũng như các phương pháp khác như Rừng ngẫu nhiên.
Wayne

1
Câu trả lời chính xác. Nhân tiện, bạn có thể thích thú khi biết rằng gần đây những người học máy đã tìm đến để phù hợp với các phương pháp ưa thích của họ vào các khung truyền thống như khả năng bị phạt tối đa - và hóa ra các phương pháp ưa thích hoạt động tốt hơn khi điều này được thực hiện. Hãy xem xét XGBoost, được cho là thuật toán tăng cường cây hiệu quả nhất trong sự tồn tại. Toán học có ở đây: xgboost.readthedocs.io/en/latest/model.html . Nó trông khá quen thuộc với một nhà thống kê truyền thống và bạn có thể điều chỉnh các mô hình cho nhiều mục đích thống kê phổ biến với các hàm mất thông thường.
Paul

5

Bạn đã đúng, thường xuyên hồi quy logistic không phải là một trình phân loại (đặc biệt là khi so sánh với các thuật toán khác). Tuy nhiên, điều này không có nghĩa là hồi quy logistic nên bị lãng quên và không bao giờ được nghiên cứu vì nó có hai lợi thế lớn:

  1. Kết quả xác suất. Frank Harrell (+1) đã giải thích điều này rất tốt trong câu trả lời của mình.

  2. Y=1X1=12X2,...Xp


5
Và hiệu suất kém rõ ràng như là một bộ phân loại là kết quả của việc sử dụng điểm chính xác không phù hợp, không phải là vấn đề cố hữu đối với hồi quy logistic.
Frank Harrell

@FrankHarrell: Gần đây tôi đã thực hiện một số thử nghiệm và tôi nói rằng Logistic Regression phù hợp với dữ liệu với sự tự do ít hơn nhiều so với các phương pháp khác. Bạn cần thêm các tương tác và thực hiện nhiều tính năng kỹ thuật hơn để phù hợp, giả sử, tính linh hoạt của Random Forest hoặc GAM. (Tất nhiên sự linh hoạt là sự thắt chặt vượt qua vực thẳm của việc quá mức.)
Wayne

3
@wayne Điều này ít tự do hơn, như bạn nói, rất hữu ích trong nhiều trường hợp, bởi vì nó mang lại sự ổn định
rapaio

3
Không chỉ giả sử các thuật ngữ tương tác ít quan trọng hơn các thuật ngữ phụ gia thêm tính linh hoạt mà bạn có thể thư giãn các giả định theo nhiều cách. Tôi đang thêm nhiều hơn về điều này trong câu trả lời ban đầu của tôi.
Frank Harrell

2
@rapaio: Vâng, linh hoạt là nguy hiểm, cả về mặt quá mức, nhưng cũng theo những cách khác. Đó là một vấn đề về tên miền / sử dụng: dữ liệu của bạn có bị nhiễu không, hay nó thực sự là "cục bộ / cụm-ish" nếu tôi có thể sử dụng thuật ngữ đó?
Wayne
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.