Vladimir Vapnik (đồng phát minh ra Máy Vector Hỗ trợ và nhà lý thuyết học tính toán hàng đầu) chủ trương luôn cố gắng giải quyết vấn đề trực tiếp, thay vì giải quyết một số vấn đề chung hơn và sau đó loại bỏ một số thông tin do giải pháp cung cấp. Tôi thường đồng ý với điều này, vì vậy tôi sẽ đề xuất một cách tiếp cận phân loại cho vấn đề như hiện tại. Lý do cho điều này là nếu chúng ta chỉ quan tâm đến việc phân loại một dự án là có lợi nhuận hoặc không có lợi nhuận, thì chúng ta thực sự chỉ quan tâm đến khu vực nơi lợi nhuận là khoảng không. Nếu chúng ta hình thành một mô hình phân loại, đó là nơi chúng ta sẽ tập trung các nguồn lực mô hình hóa của mình. Nếu chúng ta thực hiện phương pháp hồi quy, chúng ta có thể lãng phí tài nguyên mô hình hóa để cải thiện hiệu suất nhỏ cho các dự án sẽ mang lại lợi nhuận cao hoặc không có lợi nhuận, có khả năng phải trả chi phí cải thiện hiệu suất của các dự án biên giới.
Bây giờ lý do mà tôi đã nói "như hiện tại được đặt ra", là rất ít vấn đề thực sự liên quan đến phân loại nhị phân đơn giản, cứng (nhận dạng ký tự quang học có thể là một). Nói chung các loại phân loại sai khác nhau có chi phí khác nhau hoặc tần số lớp vận hành có thể không xác định hoặc biến đổi, v.v ... Trong những trường hợp như vậy, tốt hơn là có một phân loại xác suất, chẳng hạn như hồi quy logistic, thay vì một SVM. Nếu dường như đối với tôi đối với một ứng dụng tài chính, chúng tôi sẽ làm tốt hơn nếu chúng tôi biết xác suất của dự án sẽ có lãi hay không, và nó có khả năng sinh lãi hay không. Chúng tôi có thể sẵn sàng tài trợ cho một dự án có cơ hội sinh lãi nhỏ, nhưng lợi nhuận ồ ạt nên thành công, nhưng không phải là một dự án gần như được đảm bảo để thành công, nhưng sẽ có một mức lợi nhuận nhỏ như vậy mà chúng tôi sẽ tốt hơn hết là chỉ cần dán tiền vào tài khoản tiết kiệm.
Vậy là Frank và Omri374 đều đúng! (+1; o)
EDIT: Để làm rõ lý do tại sao hồi quy có thể không phải luôn luôn là một cách tiếp cận tốt để giải quyết vấn đề phân loại, đây là một ví dụ. Giả sử chúng tôi có ba dự án, với khả năng sinh lời và đối với mỗi dự án, chúng tôi có một biến giải thích mà chúng tôi hy vọng là chỉ ra lợi nhuận, . Nếu chúng tôi thực hiện phương pháp hồi quy (có bù), chúng tôi sẽ nhận được các hệ số hồi quy và (miễn là tôi đã thực hiện tổng hợp chính xác!). Mô hình sau đó dự đoán các dự án mang lại lợi nhuận , và → x =(1,2,10)beta0=-800,8288β1=184,8836 y 1≈-$616 y 2≈-$ 431 y 3≈$1048 → t =2y⃗ = ( - $ 1000 , + $ 1 , + $ 1000 )x⃗ = ( 1 , 2 , 10 )β0= - 800.8288β1= 184,8836y^1≈ - $ 616y^2≈ - $ 430y^3≈ $ 1048. Lưu ý rằng dự án thứ hai được dự đoán không chính xác là không có lợi. Mặt khác, nếu chúng ta thực hiện một cách tiếp cận phân loại và thay vào đó là hồi quy trên , chúng ta sẽ nhận được các hệ số hồi quy và , điểm số ba dự án như sau: , và . Vì vậy, một cách tiếp cận phân loại phân loại chính xác dự án 1 là không có lợi và hai cách khác là có lợi nhuận.t⃗ = 2 * ( y> = 0 ) - 1β0= - 0,2603β1= 0,1370t^1= - 0,1233t^2= 0,0137t^3= 1.1096
Lý do tại sao điều này xảy ra là một phương pháp hồi quy cố gắng hết sức để giảm thiểu tổng các lỗi bình phương cho mỗi điểm dữ liệu. Trong trường hợp này, SSE thấp hơn có được bằng cách cho phép dự án hai rơi vào phía không chính xác của ranh giới quyết định, để đạt được các lỗi thấp hơn ở hai điểm còn lại.
Vì vậy, Frank đã đúng khi nói rằng phương pháp hồi quy có thể là một cách tiếp cận tốt trong thực tế, nhưng nếu phân loại thực sự là mục đích cuối cùng, có những tình huống có thể thực hiện kém và phương pháp phân loại sẽ hoạt động tốt hơn.