Tôi hiện đang tự dạy mình cách thực hiện phân loại, và cụ thể là tôi đang xem xét ba phương pháp: máy vectơ hỗ trợ, mạng lưới thần kinh và hồi quy logistic. Những gì tôi đang cố gắng để hiểu là tại sao hồi quy logistic sẽ hoạt động tốt hơn so với hai cái kia.
Từ hiểu biết của tôi về hồi quy logistic, ý tưởng là để phù hợp với một chức năng logistic cho toàn bộ dữ liệu. Vì vậy, nếu dữ liệu của tôi là nhị phân, tất cả dữ liệu của tôi có nhãn 0 phải được ánh xạ tới giá trị 0 (hoặc gần với nó) và tất cả dữ liệu của tôi có giá trị 1 sẽ được ánh xạ tới giá trị 1 (hoặc gần với nó). Bây giờ, vì hàm logistic liên tục và trơn tru, nên việc thực hiện hồi quy này đòi hỏi tất cả dữ liệu của tôi phải khớp với đường cong; không có tầm quan trọng lớn hơn được áp dụng cho các điểm dữ liệu gần ranh giới quyết định và tất cả các điểm dữ liệu đóng góp vào sự mất mát theo số tiền khác nhau.
Tuy nhiên, với các máy vectơ hỗ trợ và mạng nơ ron, chỉ những điểm dữ liệu gần ranh giới quyết định mới quan trọng; miễn là một điểm dữ liệu vẫn ở cùng một phía của ranh giới quyết định, nó sẽ đóng góp cùng một tổn thất.
Do đó, tại sao hồi quy logistic sẽ vượt trội hơn so với các máy vectơ hỗ trợ hoặc mạng nơ ron, vì nó "lãng phí tài nguyên" khi cố gắng điều chỉnh một đường cong với nhiều dữ liệu không quan trọng (dễ phân loại), thay vì chỉ tập trung vào dữ liệu khó khăn xung quanh quyết định ranh giới?